五千年(敝帚自珍)

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
分页树展主题 · 全看首页 上页
/ 11
下页 末页
      • 家园 丢硬币

        你说:如果精确知道丢硬币的角度、力度,我们是可以精确预测硬币的结果的。但是丢硬币之所以是个概率问题,恰恰是因为,你没法精确预测下一次丢硬币的角度和力度。这里的自变量就是丢硬币的角度和力度。

        具体某次丢硬币的结果必然是确定的(不是正面朝上就是反面朝上,当然还可以是竖起来,或者干脆直接消失)。但是不等于丢硬币的结果就不是个概率问题。

        • 家园 是的

          所以,当我们选择放弃观测某些自变量或者我们根本不知道这些自变量的存在时,如丢硬币的角度和力度时,那些原本能够被这些自变量解释的因变量,就可以用概率来处理了。

          • 是的
            家园 也不一定

            即使知道所有初始值,也未必可以准确预测最后的结果,因为中间的出射的摩擦力、空气扰动等都对结果产生影响。而且,如果整个过程是非线性的,那么预测就不再是决定性的。所以概率就是世界的本质。“上帝有时也掷骰子”。

            • 家园 想再讨论一下

              我同意当不能准确预测最终结果的时候,我们可以用概率论。

              像您所说的,因素太多或者过程非线性都会影响我们的预测能力。

              我强调的是,哪怕是一个完全确定的过程。

              比如y=sin(x)

              当我们观察不到x时,我们使用概率论也是合理的。

    • 家园 讨论机器学习的一个问题和一种极限

      这是和itn网友的讨论。虽然是他的一个特殊的例子,我认为具备普遍性,就提上来到这里。

      按照我的理解,他的情况基本上如此:有一个时间序列A1A2A3······AN,这里N大于300。Ak是标量(不知道范围,估计可以认为在一个小范围内,比如说0-255等,他的量可能要取对数?)。他需要一个比较智能的东西来监测这个标量的变化,在异常变动时,自动报警。而且这个异常变动不仅和前后两个标量的变化幅度有关,也时间所在也有关。他说的,白天变化颇大也正常,但是晚上这个变化就不正常了。

      这个事情本身不是难题,甚至可以说连问题都不是。如果是写程序来做的话,很容易。但是,我们希望的是能够让机器自己来学习,尽量减少人工的干预。现在来看如何做。

      当然有很多做法。itn网友是根据Hawkins的那个脑学习算法来做的。根据他们的那个视频,他们的那个算法可以把时间序列记忆下来(恐怕也记忆不了全部,仅能记忆一段吧),而且可以预测以后若干时间的标量,至少是可以比较好的预测(这要请itn网友来仔细讲讲),就是说,如果我知道了Ak,我就可以比较好预测A(k+1),A(k+2),······,A(k+20),等。那么,有了这样的数据,是否就比较好做报警了呢?

      可能可以。比如说,如果我预测A(k+10)应该仅比Ak大10(比如说的话),但是,实际上A(k+10)大了50,是不是我就可以报警了呢?这样看,好像不太用人工干预,就可以做报警了。

      但是,仍然,为什么大了50,就可以报警?这个标准,不是机器可以学习的,如果没有外面的监督和指导的话。我想,这就是目前的机器学习的极限了。

      其实,如果没有了外面的监督和指导,即使一个真人在那里,也不太好定这个标准。这个标准多少需要外部的反馈。这就更是学习的极限。

      • 家园 自主学习和接受学习

        你说的“外面的监督和指导”可以归入“接受学习”的范畴,就是别人灌输给你的知识。你说的机器自己的预测,类似于“自主学习”。

        对于人类来说,接受学习是不可取代的(知识的传承),完全的自主学习代价太高(所有知识都要自己从头获得)。我想对于机器学习也一样,在接受学习(标准)的基础上进行自主学习(预测)。

        所以你说的应该不是“学习”的极限,而是“自主学习”的局限。

        • 家园 谢谢讨论。但是的确是学习的极限

          你的说法有些接近我的想法了。我说的“外面的监督和指导”,其实并没有深入说我的想法,有些偷懒不想多说。我的想法其实是这样的:学习中,从现有的已知的数据中学习,是一种有效的学习,但是有相当的局限。而更重要的学习,其实必须是参与,去主动获取反馈,也获取一切外部的资料,包括既往的一切资料,就是说去实践,去深入,从外部获取资料,才有可能深入下去。

          这里的这个例子就很清楚。

          你讲的自主和传授(灌输),也的确如此。不过我们的思路有所交错。

          • 家园 您前面例子里的前提似乎是人脑能够

            正确地总结学习,我觉得从另一个角度看,其实正确率未必百分之百,很多时候要经过血的教训才能得到正确的结果,在这个过程中不正确的那个人脑本身可能就消失了。或者再进一步想,人脑是联机的,并不追求一个人脑就解决问题。

    • 家园 关键是对人脑做基本认知的规律要有突破

      看树网友的题目非常有意思。我认为,基本上就是和我的那个脑科学的题目类似的。当然可能着眼点有所不同。

      好像是老乔姆斯基说的,科学的进展总是在对事情的本质有了认识后达成的。

      的确,现在的机器学习,事实上还没有能够达成对事情的本质认识。我想,机器学习的前沿基本上可以参考斯坦福的那些公开课程。如果用尽可能简单的话来概括的话,可以说:机器学习是试图采用已知的数学统计方法对复杂事物做尽可能好的分类。例如看树网友的人脸的例子。可以说,离开事情的本质还非常远。

      我们现在知道(其实几十年前,就有很多天才的猜测),人脑并不是对人脸这样的复杂事物做什么统计处理,而是把这个复杂信息分解成很多更加细小的信息,处理这些细小信息,然后再逐级集合起来处理,最终达成分类/认知/辨识等等。但是,具体是怎么做的呢?里面的规律是什么呢?现在还没有很好的理解。

      但是,我这里大胆预言一下,快了,我们离开获取这样的规律并不太远了。美国国防先进科技局的那个著名的难题,就是对达成这样的突破的期望。这是激动人心的时代。

      基本上有两条紧密相关的途径。一条途径是期望从了解神经元的工作原理,神经元的各种细微组织,神经元的连接出发,逐步破解脑内部的工作规律,从而进一步理解脑是如何处理复杂事物的。另一条途径是更多从软件模拟上来做,就是说,考虑各种处理细小信息的模式识别器,以及这些模式识别器的各种组织关系,看是否可以搭建起有效的可以处理复杂事物的大规模模式识别器。目前来讲,这两方面都有了非常巨大的进展。例如看树网友以前提到过的google的猫脸识别的深度学习网络。不过,还没有人达成了突破性的进展。突破性的进展谁也不知道来自何方,但是,完全可能从什么地方就突然冒了出来。我是坚定相信,快了,突破性的进展可能很快就来了。

      这里回顾一下科技史。20世纪的20-30年代,是科技大突破的年代。在欧洲,量子物理得到突破。而在美国,通讯理论,计算理论等也得到突破。这两者相加,现代计算才有可能。现在全球的经济的非常大的一部分就是建立在这两个突破上的。我猜想,可能下一个重大突破就是关于人脑做认知基本认知的规律。如果实现了这个突破,完全可以设想以后的发展,就将和这个突破非常紧密相关。

      很有些遗憾的是,目前还看不到中国本土的各类人员在这些方面有积极的活动。大概国家的科学组织部门对此的态度也不积极。

      • 家园 On intelligence

        不知鸿乾兄有没有读过这本书? (by Jeff Hawkins, founder of Palm)

        Jeff在书中阐述了他关于人脑学习的理论。理论非常impressive。 他开了个公司Grok,最近开源了其算法。我试过一下作anomaly detection,并没有别的算法更好。当然我对这算法也就是Hello world的水平。鸿乾兄如有空研究一下,交流一下体会。

        • 家园 这些我知道。我在脑科学的那个话题中,做过讨论,请过去参加
          • 家园 请给个链接?
            • 家园 请看这里

              围绕脑科学而发生的若干玄想:链接出处

              以及这个:链接出处

              你做了些什么测试呢?请多讲讲,我们来看,为什么他们的东西不是很有效?但是,关键还在你想达到什么目的。

              • 家园 很简单的测试

                我们用“传统”统计学习算法做了数据中心服务器异常检测。一天分成24个小时,每个小时一个模型学习服务器的用量。用量大大高于或低于平时就是异常。实用中这机器学习基本达标。前提或缺点是事先要了解服务器用量的pattern,确定一天分成24个模型。

                看到nupic(Grok开源的算法)我想nupic能否根据数据机器自己建模。初步测试的结果不令人满意。nupic自带一些例子。其中一个hotgym的例子跟我的use case很像。这hotgym的例子是预测健身房的用电量。健身房的用电白天高,半夜很低,但不会降到0。 降到0意味健身房断电,属异常。我把hotgym例子中一些半夜用电量设成0. Nupic没能检测出异常。

                我想如把一天时间分成24段给Nupic。它可能会检测出异常。但这前提是了解用电量的pattern,这与我现有的算法比就没有本质的优越性了。

分页树展主题 · 全看首页 上页
/ 11
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河