主题:311-李飞飞:我们能看到的与我们所看重的 -- 万年看客

共:💬63 🌺337 🌵7 新:
全看分页树展 · 主题
家园 311-李飞飞:我们能看到的与我们所看重的

https://www.youtube.com/watch?v=gzOwpEupP5w&t=3107s

我想与大家分享一场讲座,这个演讲在某种程度上是高层次的概述,旨在从计算机视觉和人工智能发展的视角出发总结一下我这些年来所做的工作。所以讲座的标题是“我们看到的和我们看重的——具备人类视角的人工智能”。

我先带你们回顾一下历史。我这里所谓的历史指的是5.4亿年前。那时候的地球还是一锅原始汤,所有的生物都生活在水里,而且数量并不多,只不过是四处漂浮的简单生命体。但在非常短的地质时间内——大约只有1000万年——情况就大不一样了。研究化石的科学家们发现这一时期的动物物种数量发生了爆炸性的增长,以至于那个时期被称为寒武纪大爆发,也有些人称之为进化大爆炸。发生了什么?为什么一开始生命如此平静简单,动物并不多,然后动物物种突然发生了爆炸性增长?有很多理论试图解释这一点,从气候变化到水的化学成分。但是关于寒武纪大爆发的主要理论是由澳大利亚动物学家Andrew Parker提出的。他推测物种爆炸“是由视觉的突然进化引发的。视觉引发了一场进化的军备竞赛,动物要么进化,要么死亡。”一旦你看到了第一道光,你就会以根本不同的方式对待世界。你可以看到食物,你可以看到庇护所。你可能成为别人的食物,它们会积极地捕食你。你必须积极地与世界互动和接触才能生存和繁殖。所以从5.4亿年前直到今天,视觉与视觉智能已经成为了动物智能神经系统发展和进化的基石。今天我们已知的宇宙当中最令人难以置信的视觉机器就是人类视觉。无论是人还是动物,我们都用视觉来探索世界、生活、交流、娱乐、社交、做很多事情。这就是自然视觉的一段简史。

那么计算机视觉呢?计算机视觉的历史比进化的历史要短一些。根据都市传说,大约60年前——我想是1966年——有一位雄心勃勃的麻省理工学院教授宣称:人工智能领域已经诞生了,看起来发展得还不错,那么我想我们可以用一个夏天解决视觉问题。实际上,我们要让暑期打工本科生负责这个问题,就用这个夏天来创建或者构建计算机视觉系统的重要部分。这并不是轻佻的猜测,我实际上很同情他。因为对于人类来说,一睁开眼睛就能毫不费力地看到东西。感觉只要你一睁开眼睛,整个世界的信息就摆在你面前。所以他可能低估了构建视觉系统的难度。但这是一次英勇的努力。当然,他们没能在一个夏天解决视觉问题,甚至没能解决一点点视觉问题。但是60年后的今天,计算机视觉已经成为了一个非常繁荣的领域,无论是在学术界还是在技术世界。我跟你们展示几个例子来说明我们的情况。如今到处都有视觉应用;我们梦想着自动驾驶汽车——希望在我们有生之年能够实现;我们正在将图像分类、图像识别以及如此多的图像技术应用在从医疗保健到日常生活的许多方面;生成式人工智能更是带来了全新的视觉应用浪潮和突破。所以讲座的其余部分就是为了回答这个问题而组织的:在计算机视觉领域,我们从哪里来?我们将走向何方?我想与大家分享我最近几年职业生涯当中一直从事的三项重点工作,以及我对于这三项工作的看法...

第一项工作是构建能像人类一样看的人工智能。我们为什么要这么做?因为人类真的很擅长视力。画面上是二十世纪七十年代的认知科学实验,旨在展示人类的视力多么优秀。这段视频每帧刷新频率为10赫兹,呈现时间为 100 毫秒。如果我要求身为观众的你们——我假设你们这些年轻人在上世纪七十年代还没出生,以前也从未看过这个视频——当你们看到画面上出现人形时请点头。你从未看过这段视频,我没有告诉将要出现的那个人长什么样,我没有告诉你此人会在哪一帧出现。你对这个人的一切一无所知,不知道他摆什么姿势、穿什么衣服。你很善于发现这个人。世纪之交左右,一群法国研究人员花了不少时间研究这种毫不费力的视觉能力。事实证明,人类分辨复杂物体或者复杂类别时不仅毫不费力,高度准确,而且速度很快。在复杂图片出现 150 毫秒后,无论图片里是否包含动物,人脑都会产生相应的反应。通过测量大脑信号,我们发现包含动物的图片和没有动物的照片会产生信号差异。这意味着对于我们的湿件而言,从光子落在视网膜上到大脑做出准确决定大约需要 150 毫秒。对于硅质计算机来说似乎很慢。但是对于我们的大脑来说,有一点神经科学背景的人都知道这个速度实际上非常快,因为神经信号从一个神经元传递到另一个神经元大约需要10个尖峰。所以这是一项非常有趣的测量结果。

心理学家告诉我们,人类真的很擅长看到物体。神经科学家则告诉我们,我们不仅擅长看物体,而且速度很快。现在神经生理学家则使用MRI研究告诉我们,进化已经优化了视觉识别能力,以至于我们在大脑里拥有专门负责视觉识别的神经关联区域,例如颞叶面孔区或海马旁回场所区——这些区域专门负责分辨我们看到物体和场景。这些二十世纪七八九十年代的研究告诉我们,分辨物体对于视觉智能非常重要。这项能力是人之所以为人的基石,也是构建计算机视觉必须追随的北极星之一——还不是整个北极星座,但是的确是星座当中极为重要的一颗。分辨物体这个课题引导了我自己的研究以及计算机视觉领域的早期阶段。作为一个领域,我们发现对象识别与分类是一个重要问题,而且在数学上也是一个非常具有挑战性的问题。分辨物体对于我们来说毫不费力,但是要想在数学层面识别一只可爱的袋熊的图像则极为困难,因为在数学上有无限种方式将袋熊从3D渲染到2D。光照、纹理、背景干扰、遮挡变化、视角、相机角度等等因素都要考虑到。

那么我们这个领域目前干得怎么样?我把物体识别的进展总结为三个阶段。第一阶段是并行研究。这是一个非常早期的阶段,与认知研究同时进行,我将这一阶段的研究路线称作手工设计的特征与模型:非常聪明的研究人员完全凭借自己的脑力来进行设计,将对象分解成构建块,归类成模型,为其设置各种参数,等等。这条路线的成果包括Geons理论、通用圆柱体理论、零件与弹簧模型,等等。这些都是七八十年代到九十年代初的美丽理论与美丽数学模型,问题是它们不起作用。尽管看上去非常漂亮。

然后是第二阶段,我认为这实际上是通向深度学习的最重要阶段,即机器学习。我们引入机器学习作为统计建模的技术手段,不过这些模型的输入内容都是手工设计的特征,例如旨在携带大量语义信息的对象组成部分。说得通俗一点,为了识别人体、脸部或者椅子等等对象,关键在于获得包含耳朵眼睛之类的组成部分,然后使用机器学习模型来学习将这些部分拼接在一起的参数。在这个阶段,整个领域都在尝试贝叶斯网络、支持向量机、Boosting算法、条件随机场、随机森林以及神经网络等等多种不同的统计模型。

与这个阶段同时发生的另一件事是数据识别的发展。二十一世纪初,计算机视觉领域认识到了基准数据集的重要性,例如PASCAL VOC数据集、Caltech 101数据集等等。这些数据集原本旨在衡量数据识别领域的进展,结果人们发现它们也可以在一定程度上成为训练数据。不过这些数据集都非常小,仅仅包含数百到数千张图片以及少数几个对象类别。就我个人而言,就在那时我偶然发现了一个非常令人难以置信的数字。如果你读过我的书就知道,我称之为比德曼数。比德曼教授一年前不幸去世,他是一位认知心理学家,研究视觉并且思考人类视觉智能的规模和范围。他粗略估计人类一生中可以识别3万到10万个对象类别。这哥数字没有经过验证,也很难验证,这只是他的一篇论文当中的一个猜想。他还认为一般人到 6岁时就已经学会了成年人所学的几乎所有视觉类别。这是令人难以置信的学习速度,每天大约要学十几个类别。这个数字让我很烦恼,因为我们当时看到的所有数据集都无法与这个数字相提并论。这就是ImageNet诞生的原因:我、我的学生Jordan 与其他合作者们认识到,存在一种思考视觉智能的新方式。这种新方式由深度数据驱动。所谓深度,关键不仅仅在于数据的大小,还在于数据的多样性。如今大家都知道 ImageNet 是什么。它还促使我们重新转向了高容量、由数据驱动的算法,也就是卷积或者神经网络算法。就计算机视觉而言,我们从卷积神经网络开始研究。非常年轻的学生可能不记得了,但即使在世纪之交我还在读研究生的时候,卷积神经网络就已经被当成了“经典算法”——意思就是相当古老但不起作用。可是时至今日我们仍然在研究它。看到数据和新技术如何使整个算法系列焕发活力,真是令人难以置信。

今天的观众都是内行,所以过于琐碎的细节我就不多说了。总而言之,卷积神经网络给我们带来了对象识别的第三阶段。在我看来这或多或少是对象识别的胜利阶段。使用大数据作为训练和卷积神经网络,我们能够以第一阶段和第二阶段无法做到的方式在实际环境里识别物体。当然,最令人难以置信的时刻发生在2012年。即使对于ImageNet背后的我自己来说也是如此,当时 Geoff Hinton 教授和他的学生写下了这篇定义性的论文,就此开启了深度学习革命。从那时起,视觉领域和ImageNet数据集真正推动了深度学习在变换器时代之前的算法进步。甚至像ResNet这样的工作都是“你只需要注意力/ Attention Is All You Need”论文的先驱。可见计算机视觉领域对深度学习的进化做出了很大贡献。

我快进一下。继ImageNet之后,我们开始思考对象识别之外的内容。正如Ranjay A. Krishna的论文指出的那样,这个世界不仅仅由对象标识定义。比方说画面上这两幅图片都包含一个人和一只羊驼,因此它们的含义应该相同——但是显然不是这么回事。我更想成为左边这个喂羊驼的人而不是右边这个被羊驼追着跑的人——实际上我宁愿成为左边吃东西的羊驼而不是右边发脾气的羊驼。因此对象固然很重要,但是对象之间的关系、对象所在的背景、画面结构与组合方式都是丰富的视觉智能的一部分,而ImageNet还不足以推动此类研究。再说一次,Ranjay确实是推动图像与视觉表现的全新思考方式的关键学生,他主要关注视觉关系。我们发起的下一波工作主要围绕视觉关系场景图展开。我们以对象为单位来识别场景中的实体,它们各自的属性,以及对象之间的关系。我们制作了一个数据集——这是一项艰巨的工作——称为Visual Genome,其中包含数十万张图像以及数百万条对象的关系与属性,甚至还有对于整体图像的自然语言描述,试图以此捕捉视觉世界的丰富性。Visual Genome已经催生了好几篇论文,其中很多都是出自Ranjay之手,其中我最喜欢的一篇的主题是一次性视觉关系学习。一开始我们通过研究构图来学习对象之间的关系,例如人-骑-马或者人-戴-帽子。但是通过研究构图,我们几乎凭空获得了识别冷门的长尾式对象关系的能力。图像识别的训练样本永远不嫌多,总会有没见过的图像,但是我们依然能够利用推理来识别冷门图像,例如马-戴-帽子或者人-坐在-消防栓上。有些定量测量表明我们当时的工作——已经是很久以前的事了——比起当时最先进的技术做得更好。此外我们的研究也不仅局限于自然语言当中对于对象或者关系的人为标记。我以前的学生Andre Karpathy以及你们很多人都认识的Justin Johnson撰写了一系列关于图像字幕、密集字幕以及段落生成的论文。

我想说一件事,让你知道我——或者说科学家们——预测未来的能力有多差。我非常清楚地记得,2005年当我即将研究生毕业时,作为一名计算机视觉科学家,我的人生梦想是在去世之前能够看到计算机可以具备看图说话的能力。那就是我一生的梦想。我觉得如果我们把图片输入计算机之后计算机能告诉我们图片上发生了什么,我们就达到了计算机视觉的目标。我从来没有梦想过不到十年,就在我毕业之后十年左右,这个梦想就被我们集体实现了,我自己的实验室也尽了一份力。当时做到这一点的是长短期记忆网络/LSTM,后来还有卷积神经网络/CNN。 对我来说这是一个非常了不起的时刻。首先,如果说这就是计算机视觉成就的终结,那未免有些贻笑大方。其次,我真没想到这个梦想能实现得如此之快。这个故事的寓意就是要小心你的梦想。

但是辨识静态关系本来就更容易,而现实世界则充满了更加微妙且更加难以理解的动态关系。我们仍在进行多对象、多参与者活动识别或理解方面的工作。我不打算讨论技术细节,但是人工智能对于视频的理解,尤其是对于这种程度的细微差别与细节的理解,仍然令我兴奋。这是一个未解决的问题。我还想说的是,计算机视觉领域一直很激动人心,不仅因为我在其中做了一些工作。还因为其他人做了更多的工作。最近我们在3D视觉、姿态估计、图像分割方面的进步,以及脸书、SAM和所有生成性人工智能的工作,全都令人难以置信。所以我们还没能构建出像人类一样观看的人工智能,但是我们已经取得了很大进展,其中一部分是数据、计算、算法的结果,比如神经网络,它们真正带来了这场深度学习革命。作为一名计算机视觉科学家,我为我们的领域为此做出的贡献感到非常自豪。另一方面,我仍然相信人工智能的发展将会受到脑科学和人类认知的启发。

……让我们快进到下一个阶段,也就是让人工智能看到人类看不到的东西。我刚刚告诉你人类非常擅长视觉,但是我没有告诉你我们还不够擅长。例如,我不知道你们怎么样,反正我认不出画面上所有这些恐龙玩具都是什么品种的恐龙。实际上,识别非常细粒度的物体并不是人类的强项。世界上有超过10000种鸟类,我们目前收集了一个包含4000种鸟类的数据集。人类通常在识别鸟类物种方面表现得非常糟糕。这是一个名为细粒度对象分类的领域。事实上,一想到计算机在这方面可以超越人类,一想到我们可以训练胜过人类的物体探测器,对物体的理解比人类更精细,我就感到非常兴奋。我们做过一篇我非常喜欢的应用论文,题目是细粒度汽车识别。我们下载了3000种汽车的图片,按制造商、型号与制造年份分开,包含了1970年代以来制造的所有汽车。不过取样的时间节点停在了特斯拉流行之前,所以数据集里面没有特斯拉。我们用3000 辆汽车训练了细粒度目标检测器,然后下载了美国100个人口最稠密的城市——或者说每个州人口最稠密的前两大城市——的街景图片交给检测器来处理,并且将检测结果将其与2010年发布的所有人口普查数据相关联。通过计算机视觉来看世界真是令人难以置信,我们发现汽车检测与人类社会之间存在惊人的相关性,汽车分布可以反映出某地的收入水平、教育水平乃至投票模式。我们有一篇很长的论文,其中列举了数十项相关性。我想说的是,尽管我们无法依靠各自的眼睛看到某些东西,但是计算机可以帮助我们人类无法做到的方式查看我们的世界与社会。

为了让大家明白人类视觉并不那么优秀——尽管十分钟前我刚刚告诉你们人类视觉很优秀——我举几个例子。画面上这个视觉错觉叫做Stroop测试。请试着读出单词的颜色而不是单词本身,从左到右,从上到下,尽可能快。你会发现这么做真的很难。再来两张交替闪烁出现的运输机图片,看起来很相似,但有一大块不同。谁看出来了请举手?一张图片上的运输机没有引擎。这个图像已经落在你的视网膜上了,可是你完全没有注意到。如果在现实世界,面对高风险的情况,大家恐怕都笑不出来。无论是机场安检还是进行手术,视而不见都会产生可怕的后果。医疗错误是每年美国患者死亡的第三大原因。在手术室中,清点所有器械是一项关键任务。平均而言,一旦出现器械遗失,手术就要暂停一个多小时,护士和医生必须找出器械在哪里并且考虑患者面临的所有生命风险。那么今天我们怎样盘点器械数量?我们用手数数。想象一下,如果我们可以使用计算机视觉来自动协助医生和护士在手术环境理记录小型器械的去向,这将非常有帮助。我的实验室的医疗保健团队和斯坦福医院外科部门之间一直在开展合作。如果这项技术成熟起来,我希望计算机视觉的用途能得到很好的应用。

有时候看到不仅仅意味着关注。我刚才向大家展示的每个例子似乎都存在注意力缺陷,但有时看见或者说看不见要比是否注意到更深刻。画面上是我自从读研以来就最喜欢的视觉错觉,由麻省理工学院的Ted Edison制作,名叫棋盘错觉。请看棋盘上的A格与B格,无论怎么说它们的灰度看起来都不一样,对吗?怎么可能一样?但是如果我添加一道对比条,你就会看到两者的灰度确实一样。所谓视觉错觉的意思就是即使你事先知道答案也依然很难不被你的眼睛所欺骗。再来一个视觉错觉的例子。那些年纪足够大的观众在这张照片里看到了谁?克林顿和戈尔,对吧?——是吗?是克林顿和戈尔吗?其实是克林顿和克林顿。戈尔的发型下面搭配了克林顿的脸。在这样的背景下,我们所有人都想当然地认为这俩人一定是克林顿和戈尔。人类偏见的基本问题在于人类很容易受到诱导。在研发计算机视觉时,如果我们不小心的话,就会让计算机继承人类的偏见,尤其是通过数据集训练出来的计算机。麻省理工学院的Joy Buolamwini曾经写过一首美丽的诗,揭露了计算机视觉的偏见。我并不像她和其他许多人那样是这方面的专家。但是必须指出视而不见会产生严重的后果。我们必须非常努力地对抗这些渗透到计算机视觉和人工智能系统中的偏见。在对抗视觉偏见方面人们已经提出了成百上千篇论文。

另一方面,有时视而不见又是必须的要求,因为看得太多也很糟糕,毕竟我们人类十分注重隐私。我的实验室在医疗保健方面做了很多工作,其中一大部分工作都在于隐私计算。说到如何在计算机视觉环境中保护人类尊严与人类身份,我最喜欢的作品之一出自Juan Carlos Niebles之手,它结合了硬件和软件,旨在一方面保护人类隐私,同时仍然要辨识出重要的人类行为。他的思路如下所示。如果你想了解人类的行为,你可以拿起相机拍摄视频并进行分析,比方说画面上是一个婴儿正在推一个盒子。如果你不想让这个婴儿出现在画面里应该怎么办?如果不想暴露这婴儿身后的环境又应该怎么办?能否设计一款模糊原始信号的镜头?就像一般镜头从不获取纯像素信号一样?如果人类透过这样的镜头看去,根本看不到婴儿。他们就是这么做的。他们设计了一个扭曲的镜头,会将原始视频信号扭曲成一团模糊。与此同时他们还设计了一套算法,不会辨识画中人的身份,只会恢复画中人的动作。他们的硬件-软件组合方法不仅可以保护隐私,还可以洞察画面当中对于用户有用的信息,无论是在交通运输还是医疗保健方面都很好用。换句话说,构建人工智能来看到人类看不到的东西是计算机视觉的目标之一,不过同样重要的是要认识到,尽管有时人类的视而不见确实不好,会让人类产生偏见,但是另一些时候我们也想让计算机面对我们想要保护的隐私视而不见。所以总的来说,人工智能确实会放大与加剧困扰人类社会多年的许多深刻问题,我们必须致力于研究、预测和引导人工智能对人类和社会的影响。我现在与之前的许多学生都在这方面做出了贡献。

再接下来我们谈谈构建人工智能来看到人类想看到的东西。这里的关键在于真正让人类更加显著地处于设计技术中心,从而让技术真正为我们造福。当你们听到人工智能这个词时,可能会有这样那样的想法。但是如今当公众听到人工智能时,他们首先想到的是什么?焦虑,对吗?这种焦虑很大程度上来自劳动环境与工作岗位。如果你去看新闻头条,隔三差五就会看到人工智能令人失业的说辞。但是在很多情况下,人类劳动力其实非常短缺。这就又说到了我曾从事过的医疗保健行业。去年美国至少存在100万名护士的用人缺口,而且情况正在恶化。我讨论过我们的医疗保健系统当中的医疗错误问题;老龄化社会加剧了照料者的缺乏;一大部分护理负担以非常不公平的方式落在了女性和有色人种身上;更有甚者,护理工作甚至不被计入GDP。因此,与其考虑让人工智能取代人类能力,不如考虑利用人工智能增强人类能力,提升人类工作岗位,并为人类提供帮助,尤其是在视觉上给予人类帮助。医疗保健领域特别需要这种帮助。太多的时候、太多的情况下,我们都两眼一抹黑,不知道病人的情况如何,不知道护理服务质量高不高,不知道手术室里的某个小器械不见了,不知道我们是否犯了可能会有严重后果的药物错误。因此在过去的 10 年里,我和我的实验室以及我的合作者开始了这个被称为医疗保健环境智能的新的研究领域,我们使用智能传感器,主要是深度传感器和相机,以及机器学习算法来收集对健康至关重要的见解 。

这方面的大多数早期工作都在《自然》杂志的这篇题为《用环境智能照亮医疗保健的黑暗空间》的文章当中得到了总结,我只给你们举几个简单例子。一个案例研究是手部卫生,我们在新冠疫情爆发之前就开始了这项工作。一开始所有人都认为这是最无聊的项目,但是当新冠疫情到来时,这个项目突然变得如此重要起来。事实证明,在美国每年因为医院内感染而死亡的人数是车祸死亡人数的三倍,很大程度上是因为医生和护士将细菌从一个房间带到另一个房间。因此世卫组织制定了非常具体的手部卫生方案。但是人类总会犯错误,不按规范洗手。目前医院监控洗手规范的方法非常昂贵,覆盖面稀疏,而且显著干扰正常一户活动,具体来说就是在洗手池边上安插监督员来提醒医生和护士,这种做法显然完全不可扩展。因此我和我的学生一直与斯坦福儿童医院和犹他州山间医院合作,在卫生凝胶分配器前面放置深度传感器,然后使用视频分析和活动识别系统来观察医疗保健工作者是否以正确的方式洗手。可以看到,与人类观察员相比,计算机视觉算法的精确度和提醒率非常高。另一个例子是重症监护患者下床运动项目,让患者在 ICU 中以正确的方式下床非常重要,这一点可以帮助患者康复。美国GDP的1%都花在了重症监护室里——医疗保健行业整体占了18%——这里是病人为生死而战的地方,我们希望帮助他们康复。我们与斯坦福医院合作,将RGBD 传感器放置在重症监护室,以此研究如何协助病人运动。医生希望患者做的一些重要动作包括起床、上床、坐到椅子上、离开椅子等等,而我们可以利用计算机视觉算法来帮助医生和护士跟踪这些动作。最后还有不能忽略的一点是老龄化。我们如何保证老年人的安全、健康,同时还能独立生活?如何发现感染、运动能力改变、睡眠障碍、饮食问题等等的早期迹象?计算机视觉能够发挥重要作用。我们现在才刚刚开始与泰国和新加坡进行实际合作,将计算机视觉算法引入老年人的家中,但同时也要牢记隐私问题。

必须指出,我仍然对长期未来感到非常兴奋。我认为无论我们做什么,我们都大概会进入一个机器人与人类合作使得生活更美好的世界。被动传感器构成的环境智能确实可以做到某些事情。但是我认为最终实体人工智能将会更大地帮助人们,包括消防员、医生、看护者、教师等等。从技术上讲,我们需要实现感知和行动之间的闭环,唯此才能将机器人或者实体人工智能带入世界。目前现实与理想之间的差距依然很大。画面上这台波士顿动力公司的机器人非常没用,想要将几个盒子摞起来都惨遭失败。我知道机器人研究进展也非常快。因此仅仅举一个例子并不公道。但是总的来说,我们现在的机器人学习与研究整体上仍然停留在技能水平任务、短期目标和封闭世界指导等方面。我想与大家分享一项至少尝试在开放世界进行机器人学习的尝试。这项尝试仍然没有完全缩小所有鸿沟,我也没有声称我们做到了这一点,但是至少我们正在某些层面开展努力。我们半年前刚刚发布了VoxPoser。我们观察典型的机器人任务,例如开门。今天的机器人学习的理念是你给机器人一个任务,然后再给机器人一个训练集,然后尝试训练一个动作模型,最后测试这个模型。但是问题在于如何归纳实地可能出现的情况?如何在开放世界教育机器人?画面上就是结果。我们这项工作的重点是使用开放词汇进行野外运动规划,这个想法实际上借鉴了大型语言模型:通过大语言模型组成任务,通过视觉语言模型识别目标和障碍,然后使用代码生成的3D值图来指导运动规划。一旦机器人接受了指令,打开最上面的抽屉,你就可以使用大语言模型来编写指令,因为大语言模型可以帮助识别对象和操作。与此同时,你还可以使用视觉语言模型来识别需要的对象,每次识别都会更新规划图。在这种情况下,它有助于您识别抽屉。地图设置了一些值,并且重点关注抽屉。如果你给机器人下一道额外的指令“注意花瓶”,指令会经由大语言模型返回视觉语言模型,使得机器人识别花瓶以及有障碍物的规划路径,从而更新值图,重新计算运动图,如此递归,直到实现动作优化为止。画面上是我们在现实世界模拟当中看到的例子。如今已经有了几个机器人针对铰接物体与可形变物体的操作示例,以及在日常任务当中执行此操作的示例。

还有最后三分钟,我再跟大家分享一个项目。我总是在内心深处感觉到,即使是我刚刚向大家展示的 VoxPoser 以及我实验室中的许多其他项目,与我出身的领域——即视觉世界——相比,前者涉及的数据规模都非常小,实验场景的设置不仅很小,而且很零碎,没有做到标准化,并且实验任务或多或少由实验室设定。与如此复杂、动态、多变、互动、多任务处理的现实世界相比,它实在令人不满意。我们如何在机器人学习方面取得进展?计算机视觉和自然语言处理已经向我们展示了大数据以及有效的基准测试对机器学习的推动。因此如何将大数据的目标与机器人学习的有效基准测试结合起来一直是我思考的问题。画面上是我们一直在做的新项目——其实已经不那么新鲜了,已经推出了三年——名叫“行为”/BEHAVIOR,全称是“虚拟、互动、生态环境当中日常家庭活动的基准”。我们想要训练机器人执行1000项对人们来说很重要的任务,而不是什么零散的无关任务。所以我们从以人为本的方法开始,首先询问千上万的人们:“你想要一个机器人来帮助你吗?”你想要机器人来帮助你清洁厨房地板吗?是的。铲雪?是的。叠衣服?做早饭?拆开圣诞礼物?我们实际上采取了以人为本的方法,查阅了美国和其他国家人类日常活动的政府数据。我们前往Amazon Mechanical Turk这样的众包平台询问人们希望机器人做什么,然后对反馈回来的数千个任务进行排序,以此确定人们需要以及不需要什么帮助。各种家务清洁工作都让人讨厌。但是拆开圣诞礼物、购买婚介或者调配婴儿麦片之类的工作对人类来说非常重要,在这些方面我们不需要机器人替我们干活。因此我们选取了人们希望机器人帮助的前1000项任务,并将其汇总为行为数据集的列表。然后我们扫描了50个现实世界环境,例如公寓、餐馆、杂货店、办公室等。与我最喜欢的ObjectVerse 相比,它的规模非常小,但我们拥有成千上万的对象素材,以此创建了一个模拟环境。

我想向华盛顿大学和其他许多地方的许多优秀工作表示感谢。机器人模拟实际上是一个非常有趣的研究领域和优秀的工作,像Ai2THOR、Habitat、Sapien也做出了很多贡献。我们与 NVIDIA,尤其是 Omniverse 团队合作,尝试专注于为机器人学习创建一个真实的模拟环境。该环境具有良好的物理特性,例如热特性、过渡特性与照明特性等等;我们的用户研究表明这个环境的景深透视做得也很到位;至于被测试机器人与环境互动就更不用说了。细节我就不说了,总之我们进行了一些比较,用这套行为环境进行了1000项机器人任务训练,并且展现了它的优势。目前我们正在开展一系列工作,涉及基准测试、机器人学习、多感官机器人,甚至还有关于家用机器人影响的经济学研究。

还有一件事我没有在这里展示:我们正在利用BEHAVIOR环境研究脑机接口。在BEHAVIOR环境里,受试者可以利用脑电图驱动虚拟机械臂,以此展示脑机接口的效能。这个项目是本季度刚刚发布的,所以我没有包含相关幻灯片。BEHAVIOR正在成为一个非常丰富的研究环境——我希望整个人工智能领域都能从中获益,但是至少我们实验室的机器人研究已经从中获得了很大帮助。当然,我们的目标是有一天我们将缩小机器人技术与写作机器人——或者说可以帮助人们的家庭机器人——之间的差距。这部分研究的目的是找出问题,无论是医疗保健还是嵌入式人工智能的问题。我们希望构建人工智能来查看并执行人类希望它做的事情,无论是帮助患者还是帮助老年人。我认为重点在于利用AI增强人类能力,很多合作者都参与了这部分工作。

以上内容总结了我们工作的三个阶段或者三种不同类型的工作领域。所有这一切共同构成了我所谓的以人为本的人工智能方法。我们认识到在开发人工智能时必须关注人工智能对于人类的影响,人工智能的开发重点必须是增强与增进人类能力,人工智能依然很有必要接受人类智力、认知科学和神经科学的启发。这三条要求确实是斯坦福大学以人为本人工智能研究所或者说HAI的基础,该研究所是我在五年前与来自英语、医学、经济学、语言学、哲学、政治学、法学院等学科的教师共同创立和启动的。HAI研究所已经存在快五年了,我们的工作范围覆盖了从数字经济到基础模型研究的各个领域,我们的一些工作人员站在大语言模型基准测试与评估的最前沿。我们还与Michael Bernstein等教师合作,为人工智能研究创建伦理和社会审查流程。我们不仅致力于向本科生提供人工智能伦理学的教育,而且还在将这种教育传播到外界,尤其面向政策制定者和企业高管。我们直接与国家政策、国会、参议院和白宫接触,倡导公共部门向人工智能投资。华盛顿大学是我们的合作伙伴,此外来自华盛顿州的参议员也非常重要,因为他们正在推进一项建设国家级人工智能研究云的法案。我的演讲到此结束,以上是对于以人为本的人工智能研发方法的浓缩快速概述。接下来我很乐意回答问题。

通宝推:qq97,钓者任公子,普鲁托,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河