五千年(敝帚自珍)

主题:【原创】机器学习的基础是什么?(0) -- 看树的老鼠

共:💬154 🌺509 🌵1
分页树展主题 · 全看首页 上页
/ 11
下页 末页
    • 家园 请教大家两个问题

      一是怎么才能出新兵营啊?

      二是怎么把这篇文章转到科技探索去呢?

      谢谢

    • 家园 机器学习的基础是什么?(5) 下一步往哪走?

      参照《机器学习的基础是什么?(4) 与传统科学方法的区别》一文的讨论,机器学习的本质缺陷是:它得出的模型是无法理解的。

      这带来了两个麻烦:

      1. 当机器学习模型失效时,人真的说不清楚到底它为什么失效了。

      2. 一个可用的机器学习模型,很难告诉我们任何关于问题本质的信息。

      那么,下一步该往哪走呢?

      也许我们应该增强可理解性。有这么几条路线:

      1. 人工的构建简单模型。比如动物识别这个问题吧,如果我们做出几个模型,毛发颜色识别、脸型识别、四肢识别,然后把这些模型组合起来,去做动物分类。这样,当模型失效时,我们至少可以看看,是不是毛发颜色识别错了?是否把尾巴也当作一条四肢了?

      2. 或许我们不应该从数学上理解模型在干什么,而是从经验上来看。比如从数学上很难理解Google的神经网络上每个神经元在干什么 http://www.talkcc.com/article/3835672 。 但是呢,看看这个神经元的行为,它对于什么样的图像敏感,我们就能一眼发现,这个神经元是个猫咪控呢。

      传统科学知识之间有关系,而现在的每个机器学习模型都是相互独立的,怎么解决这个问题呢?

      前面说的动物识别那个例子是一个方法。这是人工来创造知识之间的联系了。我觉得短期内这种方法比更高级的方法靠谱的多。

      不过呢,或许我们也可以隐含的构建一组相互联系的模型。这也是深度神经网络发展的一个方向。比如自然语言处理问题,我们创造好几个神经网络,这些网络共用一些节点。然后呢网络一去做中文分词,网络二去做词义理解,网络三去做句法分析,网络四去做语义分析。同时训练这四个网络,我们可以猜测,四个网络公用的节点上也许会形成一些词法知识,网络二和网络四共用的节点上也许会形成一些语义知识。而且呢,词法知识和语义知识之间也有网络连接。这也算是自动建立了知识的结构了。

      最后,机器学习处理的问题往往都很难,比如自然语言处理、图像识别、语音识别。关于这些问题,真的有一个人可以理解的简单模型吗?我不知道。

      如果我们承认,这样的模型不存在,那么,也许我们应该老老实实的,就当机器学习模型在凑答案、凑公式吧。管用就行。我们可以继续提高我们凑公式的能力。最早的时候,我们只有线性模型。后来我们有了多项式模型、支持向量机,后来呢,我们有了深度神经网络,它们都依据不同的假设,努力凑出更好的公式。

      暂时就写到这里,先扛个铁牛吧。

      下面也许还有两个主题:一个是解释机器学习工程师们每天都在干些什么。另一个是解释线性分类器、支持向量机和深度学习网络背后的直觉都是什么。

      看大家是否感兴趣吧。

      通宝推:回归,钻石象,桥上,
      • 家园 下一步怎么还不来?

        非常想听听这个“支持向量机和深度学习网络背后的直觉都是什么”。

        通过此贴得到两点启发,1.凑公式,往简单里说,类似我们小时候解应用题,通过对事物的理解在头脑中找出某个或几个已知的公式,定理去推导解决,并通过结果印证。但是区别是,机器学习的公式并不能直接得出结果,只是通过这些公式构建一些模型,然后这些模型通过学习得出某种无法解释的原理去得出结果。

        这个黑匣子问题虽然可能通过分层分解来减小黑匣子的范围,比如文字识别模型的问题可以通过分离整个字的识别模型为底层对笔画的识别模型,以及更底层对像素的模型,那么那一层出问题就可在哪一层解决。虽然黑匣子再小仍然是黑匣子,但便于修改公式与模型。就是说把学习发展为一个分布式的学习,关键在于不同模块之间如何能够有效的形成整体的学习模型。

        另一个启发是通过人工把一些知识构建,但是与wikipedia不同的是,这个结构还必须可以与机器学习的模型共同发生作用,机器学习到的还可以加入,也就是说机器学习到的知识是人可以理解的。这个听起来有回到symbolic AI的老路上的样子。说是启发,到网上一搜,发现也不是什么新想法,MIT有人早在2010年就提出过这个想法http://web.mit.edu/newsoffice/2010/ai-unification.html 而且还出现过这个叫做Church的语言 http://www.mit.edu/~ndg/papers/churchUAI08_rev2.pdf

      • 家园 刚进入这个领域不久,这个说法实在很深刻
      • 家园 我觉得可能当一个人对某一东西学习失效时,

        我们也无法搞清为什么。或者至少原因是很复杂的,而且是各有各的复杂,复杂到无法一一搞清。

      • 家园 我觉得机器学习和人脑学习的一个很大的区别,在于大脑是什么

        我们总把大脑看成是像电脑一样的硬件加软件,各种Layer分层清晰的一个“产品”。而事实上,人脑的学习能力来自于进化中固化到基因中的能力和后天接触知识后大脑“硬件结构”的改变。因此现在软件方面的机器学习,总是不上趟。因为这相当于试图凭空拿分子拼出一个有学习能力的大脑。这不是镊子拿的温或者是Sample够多就可以做到的。

        从进化的角度讲,兔子能够识别人脸的区别么?准确率是多少?金鱼呢?猴子可能能够懂得1+1=2,蚂蚁能么?人类的大脑是从三叶虫、鱼类、爬行类、哺乳类、灵长类。。。一路进化来的。这些都是学习的过程,而学习的结果积累在了基因里,成为了人脑的“硬件结构”。

        从人出生后来讲,1岁的孩子能够分出长颈鹿和斑马的区别么?3岁的孩子能够分辨奥迪和奥拓的区别么?5岁的孩子能够分辨Gucci和LV的区别么?这些也都是长期接触学习后,所拥有的能力。

        因此机器学习,如果试图绕过生物几亿年的进化学习历程和人的个体几十年的学习历程,是很难成功的。

        通宝推:桥上,
        • 家园 搞人工智能,不如直接促进大脑进化,至少应该并行

          大脑硬件进化受阻,除了你说的社会原因(软件促进外),我认为生育限制也很重要。人类的生产方式已经落后了,该发展人造子宫了。

          东亚人的脑容量算大的吧,东亚婴儿的个头算大的吧,东亚人生孩子挺吃力的,产妇受罪大(因此中国的产妇必须坐月子),所以这个生产方式应该改变了。

          我不是学相关专业的,所以就胡扯一番。

          如果用人造子宫来繁殖,人的大脑尺寸会不会无限变大,人脑不再受产道限制会不会被基因记忆并遗传下来?如果是,将来的人还真可能是人类想象的外星人的样子。

          我觉得这个的技术难度不必人工智能高,至少不会高太多,但相关的科技投入则少很多,也许在不少国家看来存在伦理问题吧。但我觉得这项研究应该先搞起来,之后再研究伦理问题。

          我固执地认为,那个“人脑使用率不到10%”的说法是错的,人脑其实很可能已经接近超负荷了,所以让大脑重新以人工方式进化是必须的。

分页树展主题 · 全看首页 上页
/ 11
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河