五千年(敝帚自珍)

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
全看分页树展 · 主题 跟帖
家园 宇宙为什么是简单的?

宇宙为什么是简单的?

本质上确实是构造一个函数.

我觉得机器学习有两个挑战。这两个挑战都不是机器学习特有的,而是学习,或者说人类智慧所特有的局限。

先看第一个挑战。为什么宇宙是可理解的?

想象有一个上帝,这个上帝的特点是什么呢?无穷大的计算能力、无穷大的感知能力、感知所有过去未来与所有位置的信息。

那么,上帝理解这个宇宙根本不需要任何函数。

这有点像今天大数据时代的某些机器学习算法,即简单的记忆。如果我们预先给一台机器从1到1亿的所有数字对的加法结构,那么人很可能根本就不会发现这台机器根本对于加法没有任何“理解”。

在上面,我给理解加了引号。因为什么是“理解”,似乎只有人才能说清楚。

爱因斯坦说,这个宇宙最难以理解的,就是它竟然是可以理解的。听起来真的很不可思议。

不过我想给“理解”加一个见仁见智的定义。那就是假设我们有1M的数据,如果我们能用小于等于1M的方法来存储这些数据,我觉得这就是某种程度的理解了。如果我们把数据分成两部分,一部分是输入,一部分是输出,假设在给定输入的时候,我们可以极大地压缩输出。那么这更像是一种理解了。

如果这么说,这个宇宙是可以理解的,似乎也不那么神奇。如果我们生活在一个不可理解的宇宙中,那等于是说,这个宇宙的信息量完全不可压缩。

第二个挑战也很有趣,就是为什么宇宙是简单可理解的?

为什么今天的机器学习都focus在简单的函数类呢,最基本的当然就是线性函数类了。

我觉得这是爱因斯坦那句名言的第二重解释了。生活在一个有冗余信息的宇宙,似乎并不令人惊奇。但是生活在一个简单的宇宙中就比较神奇了。

什么叫做简单呢?

从人脑的层面来讲,人脑比起整个宇宙来说算不上复杂。所以,第一种简单的定义就是:模拟人脑的结构。人脑可以模拟什么样的函数,我们就使用什么样的函数类。这也是神经网络的发展方向。

从数学的层面来讲,人类现在能够发现的所有函数都算是简单函数。所以,另一种简单的定义就是:使用人类现在发现的函数。当然,其中最简单的就是线性函数了。

想象一下,宇宙的冗余性竟然达到了这样一个程度,仅仅使用微不足道的原子(人脑这么多的原子),竟然可以在某种程度上理解宇宙。这的确令人感到不可思议。

总的来说,机器学习就是在抄袭人脑的思考方式。

首先,假设宇宙是可理解的、可压缩的,局部观察得出的结论可以推广到更广的范围与更长的时间中去。

其次,假设宇宙是简单可理解的。

现在机器学习的优点是:可以以简单的函数为基础不断的叠加出人直接用逻辑无法发现的复杂函数。所以就算大家集中在简单线性函数上,我觉得也算是一种进步了。

缺点呢,是能够允许的函数类,从某种意义上还不如人脑已经发现的函数复杂。

不过呢,只从复杂性的角度看,以后机器智能必然会超过人类的,因为它能够使用的原子数一定会超过人脑。现在机器比较傻,只是它使用原子的方式太不经济了。

这里,我尽情的胡扯一下,完全没有任何依据。整个宇宙的信息量确实无穷无尽。但是是否信息有不同的强度和适用范围?

人类虽然没有能力理解整个宇宙的信息,但是有能力理解极其微小的某个时刻产生的有限信息。假设引力产生于宇宙诞生之初某个极其微小的时刻,它本身的信息量并不大。所以人类可以理解。因为它诞生的足够早,所以任何后续的信息都无法决定性的修改引力的行为,所以看起来引力符合一个非常简单的规则。因为它诞生的足够早,所以它随着宇宙的扩张而复制到整个宇宙。所以,越基础的定理,反而越容易理解、规则越简单、适用范围越宏大。而预测我今天晚上吃什么,反而没有一个简单的规则。

通宝推:回旋镖,北纬42度,

本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河