- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠
(1)
在机器学习领域有一个著名的数据集,叫做Olivetti Faces。是AT&T剑桥实验室在1992年做的。找了40个人,每个人有一个编号,然后每个人拍了10张照片。
具体的学习任务呢,就是把数据集分成两半,保证训练集中每个人都有7张照片和人的编号,测试集中有另外3张照片。机器能看到训练集,学完之后呢,就去测试集上,猜每张照片对应的编号。
训练数据大概是:
测试数据大概是:
表情很不一样,对不对?
我想告诉大家,最简单的线性分类算法也能把这个问题解决的很好。请看下面的图像。纵轴是真实的编号,横轴是机器猜出来的编号。对角线上的颜色,表示猜对的次数,其他位置的颜色,表示猜错的次数。越靠近红色,次数越多,越靠近蓝色,次数越少。整个图中,除了对角线上,基本都是蓝色,这充分说明,线性分类算法做的不错。
有一个帅哥被机器当成是上面的美女了:
很神奇,不是吗?可是后面的算法很简单。
就是一个线性分类器。原理是:每个图像都由4096个像素点构成,每个像素点的颜色是一个数字。这样,每个人脸就是一个4096维的向量。我们就把这些向量放到4096维的向量空间中去,然后画直线,找到一些直线,能够把每个人的八张照片和其他人的所有照片分开,就像下图中的红线一样。在测试的时候呢,对于每一幅图片,就看看它落在直线的左边还是右边(当然在高维空间中,没有左边右边这个概念,这里只是为了方便起见)
我一点也不喜欢这个算法,因为我不相信人脑是这样工作的。
如果教科书上用这样的句式对我说:“xxxx年,在经过艰苦卓绝的工作后,顿牛先生露出了满意的微笑。他发现人脑在学习和思考的时候,使用的是线性分类器。”
那么,我对这个算法的接受程度也许会高一点。
这就是我思考的起点,我希望教科书斩钉截铁的告诉我一些事情。让我可以充满自豪感的使用公理、定理、定律。
- 相关回复 上下关系8
🙂我们不知道我们所不知道的事物 4 原手 字667 2014-02-08 17:01:34
🙂同意,这么看来智能的高度不过就是计算能力 看树的老鼠 字11 2014-02-10 07:06:29
🙂您这个经典的问题其实就暗含了哲学上著名的"休谟问题" 振振公子 字0 2014-01-27 23:03:25
🙂机器学习的基础是什么?(1) 线性分类器
🙂很好的营养贴 時千峰 字168 2014-01-13 18:57:01
🙂要做颜色亮度光照的归一化的 荒岛求生 字22 2014-07-29 21:05:54
🙂这就是为什么图像处理不能使用原始象素点做特征 看树的老鼠 字202 2014-01-14 04:40:40
🙂可不可以讲讲学习啥?我看了上面七张照片,可还是对另三张 1 xiaobailong 字112 2014-01-11 11:56:50