五千年(敝帚自珍)

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
全看分页树展 · 主题 跟帖
家园 机器学习的基础是什么?(3) 猜想与机器学习

在牛顿定理的发现一节中,我列了许多小的有标号的段落。每一段都说明了我的一些想法。

1. 但是在跳起来之前,我还是有功夫想到一些事情。前几天部落长老发现,大家都觉得用一打苹果和一打梨是公平的,因为看起来个数一样,为了聊天方便,全部落共同决定,以后管一打叫12,有个聪明人还一口气写出了一百个符号,管他们分别叫1、2、…、100。我觉得石头和我的距离快从100个苹果的距离缩短到80个苹果的距离了,或许距离也能用数字表示?另外,那块大石头挺重的,大概有100个苹果那么重,我是不是可以管它叫100果。

想法:没有人能够解释为什么数字能够描述现实。我们猜测“数字能够描述现实”是对的,从我们做出这个猜测时起,几万年来,这个猜想没有辜负我们。

2. 后来我听说,德先生发明了四则运算,就是加法、减法、乘法、除法什么的。反正我只关心,我是不是可以继续躺着,我喜欢躺着。

想法:加法、减法、乘法、除法建模了现实,所以,他们实际上是有实验保证的。

3. 德先生还发现,有些东西跑的快,有些东西跑的慢。比如我们部落里的夸父,跑100苹只需要2滴的时间,像我就需要5滴的时间。然后呢,5滴时间,夸父就能抛出250苹去。他发现,如果用除法定义一个叫做速度的东西,比如夸父的速度是50苹/滴,就可以猜出需要多少时间,夸父能够跑出一千万苹,虽然夸父从来也没跑过那么远。

想法:从苹果得出的运算规则,竟然可以被用于计算速度。没有人知道为什么。距离=速度*时间。虽然在今天,每个人都觉得再自然不过。我们甚至会觉得,它就是公理。但是,我觉得在做出实验之前,原始人很可能根本就没有这样直觉。如果实验证明距离不等于速度乘以时间,那么不管它多么符合直觉,我们也应该否定掉它。直觉并不可靠。

4. 我不是很感兴趣。因为斜面完全做平,会发生什么我们都知道。球最后还是会慢慢停下来呀。虽然略利伽写了一篇什么《关于两大世界体系的对话》,好像小姑娘还迷的不行不行的。但我觉得大家讨论来讨论去,听起来都挺有道理的。我不太聪明,没办法知道谁是对的。德先生发明了那么多东西,或许他比较靠近真理。

5. 我的想法后来发生了一些变化。这都是因为天气太冷,把长河都冻起来了,孩子们在冰面上滑来滑去,有一次拉拉用力的把自己的孩子推出去了(我很怀疑这不是他的孩子),那孩子兴奋的滑了好几百米,我从来没见过一个物体自己运动这么长时间,我也不相信空气能把孩子推这么远。风的力量毕竟是有限的。也许略利伽他们说的对,物体总是保持原有的运动状态,只是因为地面不太平,产生了一种叫做摩擦力的东西。

想法:哲学的思辨真的只是思辨。伽利略的思想实验,对于和他思想不同的人来说,也只能产生微弱的说服作用。如果最后伽利略的惰性(惯性)概念被实验证明是错的,那么他的思想实验只具有审美的价值,很漂亮,但是不对。

6. 对了,尼白哥的天体运行数据!从他的数据看来,天体总是沿着一个椭圆轨道运行,从数学推理可以发现,天体的速度变化方向始终指向椭圆的一个焦点,那么就意味着有一种力在指向焦点,我管它叫引力,看起来有根绳子在牵引着星球,不是吗?在某些天的思考过后(不得不承认的是,一个叫做顿牛的家伙总在梦里和我讨论),我发现这种力服从平方反比定律。同时运用 力=重量*速度 和平方反比定律,我发现我可以以极高的精度预言天体的运动!

7. 我是幸运的。如果 力不等于重量乘以速度,我不可能预言的这么准确。这个世界上有很多很多不同的数学公式可以定义力,比如重量乘以速度的平方,或者力不只与重量、速度这两个因素相关,还有更多因素。如果我猜了另外一个公式,那么天体数据可能根本就不能导出一个优美的数学公式。我也许会错过这个发现,不过幸好,如果我错过了这个公式,我的预测就会很不准,天体会告诉我,我犯了个错误。

想法:天体运动数据同时证明了平方反比定律与牛顿第二定律。

8. 从今以后,我还要继续大胆猜测,我只知道重量和速度与力有关,我能有的最简单的猜测就是我今天的发现。

想法:人们还是可以大胆的运用直觉来猜测,但是,实验数据是永远的最高标准。

总之,可以相信什么,不可以相信什么?

我们可以相信我们看见的实验数据和被实验数据证明的猜想。被越多实验数据证明的猜想就具有越高的价值。

为什么数学看起来可以脱离实验数据?因为数学只依赖的最基础的几个逻辑猜想,除此之外,别无其他猜想。而这些逻辑猜想每天都在被无数个人使用和检验,一旦它们出错,我们会在第一时间得到反馈。

有理论分析证明,对于任何一个机器学习算法,我们总可以构造出一个数据集,使得这个机器学习算法具有最高的准确度。所以,实验数据并不能证明线性分类假设或者现有的机器学习领域中的任何假设可以被信任。

现在,大家满足于接受George E.P. Box所说的:“Essentially, all models are wrong, but some are useful。”

我们都在等待更高智慧的降临,来找到一些机器学习领域可以依赖的、应用更加广泛的基础性公理。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河