五千年(敝帚自珍)

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
全看分页树展 · 主题 跟帖
家园 机器学习的基础是什么?(1) 线性分类器

(1)

在机器学习领域有一个著名的数据集,叫做Olivetti Faces。是AT&T剑桥实验室在1992年做的。找了40个人,每个人有一个编号,然后每个人拍了10张照片。

具体的学习任务呢,就是把数据集分成两半,保证训练集中每个人都有7张照片和人的编号,测试集中有另外3张照片。机器能看到训练集,学完之后呢,就去测试集上,猜每张照片对应的编号。

训练数据大概是:

点看全图

外链图片需谨慎,可能会被源头改

测试数据大概是:

点看全图

外链图片需谨慎,可能会被源头改

表情很不一样,对不对?

我想告诉大家,最简单的线性分类算法也能把这个问题解决的很好。请看下面的图像。纵轴是真实的编号,横轴是机器猜出来的编号。对角线上的颜色,表示猜对的次数,其他位置的颜色,表示猜错的次数。越靠近红色,次数越多,越靠近蓝色,次数越少。整个图中,除了对角线上,基本都是蓝色,这充分说明,线性分类算法做的不错。

点看全图

外链图片需谨慎,可能会被源头改

有一个帅哥被机器当成是上面的美女了:

点看全图

外链图片需谨慎,可能会被源头改

很神奇,不是吗?可是后面的算法很简单。

就是一个线性分类器。原理是:每个图像都由4096个像素点构成,每个像素点的颜色是一个数字。这样,每个人脸就是一个4096维的向量。我们就把这些向量放到4096维的向量空间中去,然后画直线,找到一些直线,能够把每个人的八张照片和其他人的所有照片分开,就像下图中的红线一样。在测试的时候呢,对于每一幅图片,就看看它落在直线的左边还是右边(当然在高维空间中,没有左边右边这个概念,这里只是为了方便起见)

点看全图

外链图片需谨慎,可能会被源头改

我一点也不喜欢这个算法,因为我不相信人脑是这样工作的。

如果教科书上用这样的句式对我说:“xxxx年,在经过艰苦卓绝的工作后,顿牛先生露出了满意的微笑。他发现人脑在学习和思考的时候,使用的是线性分类器。”

那么,我对这个算法的接受程度也许会高一点。

这就是我思考的起点,我希望教科书斩钉截铁的告诉我一些事情。让我可以充满自豪感的使用公理、定理、定律。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河