近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：【原创】机器学习的基础是什么？(0) -- 看树的老鼠

共:💬154 🌺509 🌵1

老视野待整

全看分页树展 · 主题跟帖

复【原创】机器学习的基础是什么？(0)

家园

机器学习的基础是什么？(1) 线性分类器

(1)

在机器学习领域有一个著名的数据集，叫做Olivetti Faces。是AT&T剑桥实验室在1992年做的。找了40个人，每个人有一个编号，然后每个人拍了10张照片。

具体的学习任务呢，就是把数据集分成两半，保证训练集中每个人都有7张照片和人的编号，测试集中有另外3张照片。机器能看到训练集，学完之后呢，就去测试集上，猜每张照片对应的编号。

训练数据大概是:

点看全图

外链图片需谨慎，可能会被源头改

测试数据大概是：

点看全图

外链图片需谨慎，可能会被源头改

表情很不一样，对不对？

我想告诉大家，最简单的线性分类算法也能把这个问题解决的很好。请看下面的图像。纵轴是真实的编号，横轴是机器猜出来的编号。对角线上的颜色，表示猜对的次数，其他位置的颜色，表示猜错的次数。越靠近红色，次数越多，越靠近蓝色，次数越少。整个图中，除了对角线上，基本都是蓝色，这充分说明，线性分类算法做的不错。

点看全图

外链图片需谨慎，可能会被源头改

有一个帅哥被机器当成是上面的美女了：

点看全图

外链图片需谨慎，可能会被源头改

很神奇，不是吗？可是后面的算法很简单。

就是一个线性分类器。原理是：每个图像都由4096个像素点构成，每个像素点的颜色是一个数字。这样，每个人脸就是一个4096维的向量。我们就把这些向量放到4096维的向量空间中去，然后画直线，找到一些直线，能够把每个人的八张照片和其他人的所有照片分开，就像下图中的红线一样。在测试的时候呢，对于每一幅图片，就看看它落在直线的左边还是右边（当然在高维空间中，没有左边右边这个概念，这里只是为了方便起见）

点看全图

外链图片需谨慎，可能会被源头改

我一点也不喜欢这个算法，因为我不相信人脑是这样工作的。

如果教科书上用这样的句式对我说：“xxxx年，在经过艰苦卓绝的工作后，顿牛先生露出了满意的微笑。他发现人脑在学习和思考的时候，使用的是线性分类器。”

那么，我对这个算法的接受程度也许会高一点。

这就是我思考的起点，我希望教科书斩钉截铁的告诉我一些事情。让我可以充满自豪感的使用公理、定理、定律。

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂我们不知道我们所不知道的事物 4 原手字667 2014-02-08 17:01:34
    🙂同意，这么看来智能的高度不过就是计算能力看树的老鼠字11 2014-02-10 07:06:29
    🙂您这个经典的问题其实就暗含了哲学上著名的"休谟问题" 振振公子字0 2014-01-27 23:03:25
  - 🙂机器学习的基础是什么？(1) 线性分类器
    🙂很好的营养贴時千峰字168 2014-01-13 18:57:01
    🙂要做颜色亮度光照的归一化的荒岛求生字22 2014-07-29 21:05:54
    🙂这就是为什么图像处理不能使用原始象素点做特征看树的老鼠字202 2014-01-14 04:40:40
    🙂可不可以讲讲学习啥？我看了上面七张照片，可还是对另三张 1 xiaobailong 字112 2014-01-11 11:56:50

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明