五千年(敝帚自珍)

主题:334-CÉSAR HIDALGO:人类如何评判机器? -- 万年看客

共:💬2 🌺6
全看分页树展 · 主题
家园 334-CÉSAR HIDALGO:人类如何评判机器?

https://downsub.com/?url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DH10-t5hnnw0%26list%3DPL4i9YSoIJiPeWWDfOimNzy08bFl_pX8Zl%26index%3D16

今天我将展现的是《人类如何评判机器》。这是一本实际上刚刚在上周由麻省理工学院出版社出版的书,因此是一本经过同行评审的书籍。这本书试图理解人们在各种情境下评判机器的方式,试图填补在我看来当前文献当中的一处空白。那么这处空白是什么呢?当我们思考人类和机器时,实际上有很多研究领域试图理解这个非常复杂的系统的不同部分。一方面,我们有很多方法来尝试理解人与人之间的互动:心理学家试图探究心灵的奥秘;经济学家试图将世界理解为理性行为人之间的竞争;社会学家研究信息如何社会化与传播,以及这一过程如何影响行为;人类学家研究考古记录,试图理解人们的行为方式;政治学家试图将人与人之间的互动理解为权力斗争。但是即使我们以各种各样的方式来研究人与人之间互动,但是对于系统的其他部分我们的文献则没有那么丰富。一方面,人类可以通过编程来操控机器,所以我们有工程学和计算机科学,旨在理解如何构建这些机器;另一方面机器也可以通过协议和网络自行互动。但是与此同时,机器也会对我们采取行动。最近有文献试图理解机器如何评价人类或者人类通过机器如何评价人类。这些文献的研究方向包括若干分支,例如有一个分支研究的是机器如何选择自身行为,自动驾驶汽车的伦理问题就属于这一分支。这方面有很多有趣的研究成果,人们评估自动驾驶汽车的行为并且试图理解自动驾驶汽车应该如何行为。还有很多人正在研究机器评判人类时的偏见。这个领域的文献也各有侧重,有些人侧重于收集种族或者性别偏见的案例,还有人更专注于理解这些偏见的限制是什么以及开发更公平的算法。考虑到当前存在的偏见以及即使用数学来定义公平的局限性,这是一个非常具有挑战性的任务。但是我们可能还想要探索一处空白,那就是人类评判机器的环节。我将论证实际上人类评判机器的方式非常深刻。理解这一点很重要,因为当我们考虑人机互动时,真正复杂的是人类,真正难以理解的行为是评判。问题并不在机器的本性究竟是邪恶还是善良,而是在于我们人类看世界的方式极其复杂,受到人类一方的多种力量的塑造。这就是我们今天要尝试解开的一点点内容。

我们将如何做到这一点?我们将使用随机对照实验。这是一种非常强大的技术,可以帮助我们快速创建数十种情境。我们可以使用这些情境来理解人们是否平等地评判人类和机器,以及如果人们不这样做的话,他们评判人类和机器的区别何在,还有为什么他们会做出这些区别。那么这些实验的原理是什么?我们召集了大约200人,将他们分配到某个环境里,其中任何情境都被呈现为机器行为。然后我们召集了另一组大约200人——当然人们会被随机分配到两组之一,从而消除选择偏见——这个组看到相同的情境,但是呈现为人类行为。这有助于我们比较他们是否以相同的方式对相同的情境做出反应,当情境被呈现为人类或者机器的行为时是否会影响受试者的反映。举个例子:一台挖掘机正在为新建筑挖地基,司机不知道工地里有一座坟,一不小心挖穿了棺材,把死者的遗骸挖了出来。这个行为可以是机器的行为——比方说自主挖掘机——也可以是人类的行为。我们想要理解如果人们以不同的方式评判人类或者机器的行为,那么应当怎样解释两者之间的差异。对于每个情境,我们收集了两种类型的数据,一组是关于情境本身的数据,另一组是关于人们对该情境的反应。关于情境本身的数据有助于我们理解这个情境触发了哪一层道德维度。我们知道,从社会心理学来看,当人们面临道德困境与问题时涉及的道德维度并不是包含无限可能性的空间,但是往往也并非非此即彼。经常涉及的道德维度包括伤害、关怀、公平、忠诚、权威以及纯洁/神圣。我们将要尝试将各个情境分配到这个多维空间。我们如何做到这一点?只需遵循文献即可。我们进行词语联想测试,其中任何情境都与一张单词列表一起呈现,人们必须识别列表当中最能代表情境的单词。而且我们知道这些单词对应什么道德维度。例如如果有人告诉我们某件事“不体面”,那对应的就是纯洁维度。如果有人告诉我们这个情境“很暴力”,那么这个情境就涉伤害维度。挖掘机挖出人类遗骸的案例是一个基于纯洁维度的情境——没有人受伤,也没有不公平的情况,但是人体具有某种神圣性,所以即使没有人受到伤害或者没有违反法律,但是挖开坟墓依然意味着玷污了纯洁。

我们接下来问的一组问题涉及人们对情境的反应。我们进行了两个独立的数据收集实验,所以不会污染样本。我们要求人们对情境作出反应,问他们情境当中的行动是否有害——在这种情况下你会雇佣这个司机吗?他/它的行动是故意的吗?你喜欢这个司机吗?司机的行为在道德上是对是错?你同意给这个司机升职吗?你同意用机器人或者算法替换这个司机吗?你同意用人类或者同类型机器替换这个司机吗?你认为司机对挖掘穿坟墓一事负有责任吗?最后我们还有一问:如果你处于类似的情况,你会做出和司机一样的事情吗?我们在这个例子中发现——红色图标代表机器,蓝色代表人类——人们并不会以相同的方式评判自主挖掘机与一台由人类操作的挖掘机。他们认为挖掘机的行为更有害,他们可能会再次雇佣人类,但是未必会再次使用机器,他们发现这两种行为的意图或者多或者少相似,他们认为机器的行为更加不道德,等等。

我们将查看几张此类图表中,但是我们不会同等关注所有这些维度,而是将要特别关注伤害、意图和道德判断这三个维度。你可能会问机器有意图吗?我们能用意图来理解机器的行为吗?我想请你将意图视为一个连续体的一部分。你有一台烤面包机,你把面包放进去,烤面包机就做它该做的事。烤面包机当然并没有打算烤面包,但是当你开始引入具有学习能力的机器时,增加的复杂性赋予了机器某种能动性——这种能动性的水平固然低于人类的水平上,但是毕竟高于烤面包机,可以说介于两者之间。以无人驾驶汽车为例,一辆旨在优先保护驾驶员的汽车与一辆旨在优先保护行人的自动驾驶汽车在突发情况下可能会采取不同的行动,因为它们要按预期行事,因为它们有不同的目标。所以如果我们采取微观管理,提供机器必须执行的所有任务细节,那么机器就没有任何能动性。但是如果我们有了能够学习的机器,我们就可以为它们提供目标,让机器自行决定实现目标的方式,而这些决定多多少少总有一些能动性。尽管机器的能动性赶不上人类,但是它们越有能力学习,越是试图满足目标而不是遵循规则,它们就越是在意图维度具有足以构成意图连续体的东西。就我们的实验而言,我们将会设计一个情境,将情境当中的某个行为呈现为人类或者机器的行为。我们将会观察受试者面对这些情境时的道德函数,比较一下在行为者是人类或者机器的前提下,受试者的反应方式是否以相似或者相同。这个道德函数将告诉我们受试者认为这个情境有多错误,并且将错误程度以函数表示,函数涉及的变量包括道德维度、情境的参与者、情境本身的特征等等。在本次讲座的下一节我将介绍一些实验,这些实验将帮助我们逐步绘制此类道德函数。

那么我们为什么以书籍而不是以论文的形式来进行讨论呢?部分原因在于我们实际上已经掌握了很多内容,远远超过了一篇论文可以包含的上限,我们认为最好将它们全部整合成一册。书的开头讲的是理论、研究背景与研究方法,第二章介绍了各种情境,从紧急响应到自动驾驶汽车等等。第三到五章覆盖了许多热点话题。第三章讲的是算法偏见,这是过去三四年里非常热门的话题。第四章讲得是隐私,不幸的是由于时间限制我们今天将跳过这部分。第五章讲的是劳动力遭到替代,也就是自动化带来的恐惧。第六章将所有这些情境结合在统计模型中,试图得出经验法则。第七章中开始考虑这些法则意味着什么?它们对我们思考世界的方式又意味着什么?这有点推测性,但是试图从实证扩展到新的理论或者新问题。

那么让我们开始吧。请考虑以下道德困境的三个版本:一场大型海啸正在逼近一个居住了一万人的沿海城镇,可能会带来毁灭性的后果。负责城镇安全的人类政客或者算法可以决定疏散所有人,成功率为50%;或者只疏散一半人口,成功率是100%。这个情境有三种可能的结果,我们安排了六组受试者来评估它们——每种结果都既可以由人类导致也可以由机器导致,因此由两组受试者分别展开评估。结果一:人类政客或者算法决定拯救所有人,但是救援行动失败了,城镇被摧毁,一万人无一幸免。结果二:人类政客或者算法决定拯救所有人,而且救援行动成功了,一万人全部幸存。结果三:人类政客或者算法决定拯救50%的城镇人口,于是死了五千人。我们看看受试者对于这三种不同结果的反应。首先我们看看人们对人类政客或者算法采取妥协的情境作何反应。在大多数测试当中,两组受试者不会体现出明显差异,唯一较为显著的差异在于希望用人类替换机器的受试者较多,希望用机器替换人类的受试者较少。但是这个维度通常总是如此。人们总是喜欢用人类替换机器,即使机器成功了完成了任务。但是当人类或者机器试图拯救所有人时,受试者的表现就显露出了相当大的差异。在全员得救的情境里,人们更愿意继续雇佣人类政客,而机器救下一万人的成绩则在某种意义上被视为理所当然。受试者认为人类行为更有意图性,在道德上更正确,尽管人与机器在这里做出了相同的行为。受试者不太愿意向机器赋予更大的责任。尽管机器在这个情境当中拯救了所有人,但是仍然有很多人希望用人类替换机器。如果是人类拯救了所有人,他的工作将会很有保障。

试图拯救所有人却失败的情境展现了最大的差异。机器的行为被认为更有害。受试者希望再次雇佣失败的人类政客,却不想再次使用失败的机器。尽管如此,受试者同时还认为人与机器的行为具有相似的意图——实际上说到人与机器行为在意图性维度的差距,对比一下救人失败与救人成功的情境,受试者普遍认为前者差距更小而后者更大。换句话说,在救人成功的情境里,受试者认为人类更加富有能动性和意图,因此人类的行为也比机器的行为更加道德,或者说人类比机器更有功劳;在救人失败的情境里,受试者则认为人类与机器的能动性与意图水平相似,因此人类的行为并不比机器的行为更加不道德,或者说人类并不比机器更有罪过。无论如何,受试者都认为人类的行为在道德上更正确。如果询问受试者处于类似情境时会怎么做,无论人类/机器如何选择,无论最终结果如何,受试者都更倾向于与人类保持一致并且反对机器的选择。

为什么会这样?为什么人们对人类更宽松,对机器更严厉?海啸即将到来,这是一场我们无法控制的自然灾害。你试图做些什么?你试图拯救所有人。情境二和情境三之间的区别是什么?是结果,是成败之分。人类因为他们的企图而接受评估,而他试图拯救所有人;而机器更多地根据它们的结果被评判,所以如果机器失败了,即使它们试图做正确的事情,也会受到负面评价。但是如果人类试图做正确的事情但是人类失败了,依然会受到积极的评判。以上总结很好地概括了我们将要在下面各种情境测试当中观察到的现象。

再来看另一个例子。在一个阳光明媚的春天,一位为超市连锁店工作的司机或者这家超市的无人驾驶汽车意外撞倒了一个跑到车辆前面的行人。行人受伤并被送往医院。至少按照我们向受试者呈现问题的方式,情境当中行人要负全责。这个情境再次涉及了伤害维度。我们发现受试者认为机器的行为更有害,他们更喜欢情境当中的人类。他们还更希望用人类替换机器。但是在意图维度却发生了第一次翻转,受试者认为机器行为的意图性比人类更强。这并不是因为他们觉得机器的行为意图性很强,而是因为他们更能原谅人类。在此类意外情境中,人类可以得到完全的原谅,但是机器却得不到同样水平的原谅。机器在可接受的范围内被赋予了更强的意图性。这一现象十分稳定,无论情境里被车撞的是人是狗还是行道树,受试者的反映都是一致的。

那么是人类总是拒绝机器吗?还有什么更深层次的东西吗?莫非人类只会一味厌恶算法?为了研究这个问题,我要借用乔纳森.海德的道德基础问卷当中的一个情境,并将其应用到人类和机器的思想实验当中。假设某户人家聘请了一个清洁工或者使用了一台清洁机器人,结果这位清洁工或者这台清洁机器人用一面旧国旗清洁了浴室地板,然后把弄脏的国旗扔掉了。这是一个涉及纯洁和忠诚维度的情境。国旗是神圣的国家象征,也代表了个人对团体的忠诚,还代表了权威。所以这是一个非常复杂的道德困境,不像有人受伤受害的情境,其中的错误行为更加显而易见。在这个情境里,受试者在许多维度上更严厉地评判人类,他们更喜欢机器而不是人类。他们认为人类的行为在道德上更不正确,更倾向于再次使用同一个机器人而不是再次雇佣同一个人类,尽管在发生这个错误之后他们更想用人类替换机器而不是用机器替换人类。

接下来我们看看算法偏见。刚才我们确定了人类和机器不会得到平等评判,所以现在我们想着力关注公平维度。请看以下情境:某公司用新的管理算法替换了人力资源经理,负责筛选候选人进行工作面试,然后审计发现算法从不选择西班牙裔、非裔以及亚裔候选人,即使他们与其他候选人资质相同;或者审计发现管理算法对以前遭到人力资源系统歧视的西班牙裔、非裔或者亚裔候选人采用了更公平的拣选流程。这个情境有两种可能的结果,分别是不公平的结果以及更公平的结果。还有其他非常相似的情境也提供了类似的双重结果,例如大学招生的成绩评估,公司里的加薪评估,警务事件当中的危险性评估,等等。以下或多或少是我们的发现:无论情境当中被评判的当事人是西班牙裔、非裔还是亚裔,受试者对于情境的反应都相对一致。在结果不公平的情境当中,受试者倾向于更严厉地评判人类,认为不公平的人类比不公平的算法更有害。诚然,即便在结果公平的情境当中,受试者仍然想用人类替换机器,而不是用机器替换人类。但是我们确实发现在多个道德维度上——例如行为有多少道德正确性或者造成了多少伤害——受试者都会更严厉地评判人类。所以不能简单地认为人们不喜欢机器,更喜欢人类。这些道德维度很重要。在涉及伤害的情境当中,机器会受到更严厉的评判。但是在涉及公平的情境里,我们对不公平的人类的态度要比对做出相同不公平行为的机器更加负面。再来看看公平对待的情境,在这里我们也发现了些许差异。受试者认为做出公平评判的人类的意图性更强,他们也依然希望用人类替换机器而不是用机器替换人类。但是大多数情况下,在对错、伤害与喜好这三个道德维度,受试者对于人类与机器都给出了相同的评价。但是在替换维度上,我们发现人们更倾向于用人类替换更公平的机器,而不是用机器替换不公平的人类——再说一遍,即使他们更严厉地评判不公平的人类,人们仍然更有可能想用人类替换一台更公平的机器,而不是用机器替换一位不公平的人类。这里存在巨大的不对称性:即使机器使系统更公平,它在这个评价维度上依然遭到了很多反对。

我还想强调一点:即使在意图维度上我们看到了显著差异,可是在伤害维度的差异却非常小。例如在不公平对待的情境当中,人们认为人类的不公平行为比机器更有害,但是两者差距并不大。这很有趣,因为美国1964年《民权法案》的第七章禁止雇主基于性别、种族、肤色、宗教等对雇员进行歧视。最高法院在1971年的一起集体诉讼当中确认了第七章,声称杜克电力公司的的政策歧视了非裔雇员。法院裁定,无论意图如何,对受保护类别的歧视性结果都违反了第七章。这是九位大法官的一致裁决。另一方面我们观察到,如果机器做了不公平的事情,无论你再怎么说机器没有意图或者意图性较小——受试者们确实这么认为——人们往往还是会做出相同的道德评价。换句话说受试者的反映与最高法院的裁决恰好一致:无论意图如何,只要构成了歧视性结果,就违反了民权法案的第七章。所以如果你编程了带有歧视性的程序,即使并非出自主观故意,完全基于偶然,也依然可能导致麻烦的法律后果。

现在让我们看看第五章。这一章涉及另一种恐惧,即对自动化的恐惧。这种恐惧并不新鲜。比如1961年的头条新闻:“自动化可能在十年内结束大多数非技术工作。”十年后就是1971年。或者1956年的新闻,“英国的自动化激起劳工不安。”或者1963年的漫画,机器伸出一只脚把工人踢进失业大军。这种对于自动化的恐惧也是导致第一次人工智能冬天的原因之一。这种恐惧最近又被重新唤起了。有一篇由卡尔.弗莱和迈克尔.奥斯本写的论文研究了就业的未来并得出结论:目前一半的工作岗位都可以自动化。不过即使这一切引起了很大的骚动,经济学文献对待这个话题的态度却并没有那么紧张。经济学文献不仅将技术视为劳动力的替代品,而且还将其当作劳动力的补充,例如技术可以增加总需求并创造更多的就业机会。目前我们还不清楚技术是否真的能够彻底替代劳动力,因为它们一手夺走工作,但是另一手又给予工作。而且我们也不应该认为工作被自动化了。工作没有被自动化,只是任务被自动化了。当任务被自动化只会,工作并不会被取代,而是遭到了转变。当自动取款机被引入美国时人们一度担心出纳员会消失,但是出纳员的数量随着时间的推移反而增加了。因为出纳员的工作内容发生了变化,不再像自动取款机引入之前那样主要是计数与找钱。另一个例子是中国的餐厅服务员,早在新冠疫情之前,使用手机扫描桌子上的二维码就是中国餐厅的常见做法,你的手机既是菜单又是支付手段,所以服务员不再需要给你带菜单或者账单。但是餐厅里仍然有服务员,因为他们的工作内容转向了不涉及手机、没被二维码技术自动化的任务。所以工作没有被自动化,而是任务被自动化了。此外也没有证据表明技术从长远来看减少了劳动力需求。所以短期内技术可能冲击就业,但是从长远来看,没有证据表明技术实际上减少了劳动力需求。

但是在劳动的背景下,我们有时仍然需要对技术感到担忧。问题在于技术导致了工作的不稳定化。经济历史文献会告诉你,卢德派分子并没有那么反对自动化,但是他们确实非常反对工业革命期间的可怕劳动条件,这些条件堪称骇人:儿童在织布机的夹爪之间走动,清除积累在那里的绒毛以免着火,这些孩子经常会被夹断手指。如此可怕的工作条件确实是在工业革命期间涌现出来的。在今天零工经济的背景下我们发现技术使工作不稳定,很多工资低、条件差的工作纷纷涌现。在某种意义上,这些工作正是因为技术平台才得以存在。让我们看几个自动化的例子,比较人们如何区别看待自动化取代人类员工与新人员工取代旧员工。在此类情境当中,我们使用机器或者外国移民来替换人类员工,比方说一家货运公司正在试图聘用外籍临时工司机或者使用自动驾驶卡车来降低成本,这样一来公司的成本降低了30%,但是不少当地司机因此失去了工作。其他类似情境涉及豪华连锁度假酒店、核电站和学校。针对此类情境我们设计了一组不同的问题。我们问受试者,你认可这项变化吗?他们倾向于认可自动驾驶卡车,不倾向于认可外籍临时工司机。我们又问受试者,你会禁止这项变化吗?他们很乐意禁止外籍临时工司机,不过说到禁止自动驾驶卡车他们就有点犹豫不决了。这项变化道德上是对还是错?受试者认为用机器替换人类比用外国人替换本地人在道德上更正确。你对这家公司的看法提高了吗,受试者对于使用机器的公司的看法高于雇佣外国人的公司。你认为其他人会认可吗?受试者相信其他人也会更支持使用机器。如果你是公司负责人,在类似情况下会不会这么做?受试者认为假如自己是经理,他们在面临自动化的机会时会使用机器,而在面临雇佣外国工人替换本地人的机会时则不会乱来。

自动驾驶卡车情境就是这样。让我们再看看其他情境。在其他情景当中,上述效应开始减弱。在酒店情境里上述效果依然存在,在核电站的情境里则几乎消失了。学校的情境则介乎两者之间,受试者既不喜欢外籍教师也不喜欢机器教师。换句话说,我们观察到了某种天花板/地板效应。在这三种情境当中,工作技能要求越高,受试者越愿意接受外籍员工——核电站技术员的技能要求显然高于蓝领卡车司机。我们也围绕其他服务行业设置了类似的情境,并且涵盖了外籍工人以外的选项,包括外包与离岸外包等等。我们以律师事务所、软件公司、制造公司、医院等等为主题设计了各种情境。在大多数情况下结果都一样。当涉及到取代工作时,人们倾向于用机器取代现有员工而不是用其他人取代员工。而且他们对于用其他人取代现有员工的反对程度也存在梯度。人们非常反对用外籍工人替换本地人或者用年轻工人替换老年工人。但是他们更能接受外包尤其是离岸外包。如果那些外国人没有来到受试者所在的国家工作,仅仅作为该国家的公司的海外雇员,那么这往往是这四种人员替代形式中最可接受的选项。

现在我们谈一下这本书的结尾,在这里我们将尝试整合我们的发现。书中有许多情境,大约86个,所以书中内容比起今天的讲座多得多。假如我们把这些情境全部放在一起,可以学到什么?我们将做三件事。首先我们看看描述性统计。然后我们再看几个简单的数学模型,这些模型将帮助我们看清这些情境中的趋势。它们是受试者效应模型,能让我们控制参与实验的个体的任何特征。最后我们还要看看受试者对于人工智能的评判与受试者自身的人口统计特质之间的相关性,比方说当受试者的受教育水平更高时他们的判断是否会不同,受试者自称的性别是否与他们的判断存在相关性,等等。我们先看看描述性统计。在我们进行任何数学建模之前,首先要看看这些点在笛卡尔平面上的位置。我们将考虑道德的三个基本维度——伤害、意图与错误程度,全都用从0到1来表示。每个情境都由一对坐标点来代表——分别是代表人类的蓝点与代表人工智能的红点——两点通过连线来表示它们属于同一个情境,以此来体现受试者如何根据蓝点与红点在伤害、意图和错误的三维空间里的各自定位来评判那个情境。我们把所有实验结果输入这张3D图表,可以看到伤害越强,意图越强,则错误程度越深。图表里某些角落完全没有坐标点分布,例如伤害、意图与错误程度都很低的角落,因为这个角落基本等于无事发生。

我们可以看看这个立方体的各个面。比方说顶面代表意图-伤害,在这里我们发现了非常有趣的现象:人们惯于使用双峰分布来判断人类的意图。当我们判断人类的意图时,我们往往认为当事人要么完全故意要么完全无辜,没有中间状态。人类在意图维度上得到的评分极少位于0.3到0.6之间。人们评判机器的方式则完全相反,呈单峰分布。集中在0.3到0.6区间。这一现象告诉我们,在涉及意图的情境中,人们倾向于认为人类的行为总是出于主观故意。但是面对原谅与否都有道理的情境,人类往往会得到原谅,而机器则不会。再来看看意图-错误平面。意图放大了人们对道德判断的感知。所以当意图性很低时,错误程度不可能很高或者很低。但是在图表的低意图区域,人们往往认为机器的行为更糟糕,无论机器被分配的意图性是否高于人类。在高意图区域,人类要么在做出负面行为时被视为比机器更有意图并且做得更糟,要么在采取正面行动时被视为比机器更有意图并且做得更好。当然,这些情境都存在反例,算法偏见一章对此进行了详细讨论。但是在涉及暴力的情境里,如果暴力被认为是故意的,那么机器会受到比人类更严厉的评判。最后来看看伤害-错误平面。伤害和错误自然密切相关。不过在伤害与错误水平都非常低的区域——当事人的行为严格来说确实不对,但没什么大不了的——机器还是会比人类受到更严厉的评判。

以上是描述性统计,现在让我们转向模型。我们将要做的模型是一个函数,旨在预测某个情境的错误水平与意图-伤害的关系。我们将把这些函数扩展到一阶,有一个伤害项,一个意图项,一个伤害和意图之间的交互项,还有受试者固定效应,用来控制参与实验的个体的所有静态特征。换句话说,每个参与我们实验的个体在函数当中都有自己对应的变量。我们开始运行这些回归模型之后发现。它们解释了大约64%的方差,我将通过绘制这些模型本身来解释它们。红色平面显示了人们评判机器行为的方式,蓝色平面显示了人们评判他人行为的方式。可见两个平面非常不同。红色平面在意图维度上几乎没有坡度,在伤害维度上有非常陡峭的坡度。蓝色平面更弯曲,交互项对其更重要。而且它往往会在严重错误-显著意图区间高于红色平面。这些模型告诉我们人们评判人类与机器的方式非常不同。基本上机器根据结果受到评判,人类则根据意图和结果之间的交互受到评判:事件的后果很严重吗?当事人知道自己的行为会导致这样的后果吗,他是否将导致这一后果当成目标?这些就是在情境当中解释方差的主导维度。

我们还用道德函数来分析受试者针对人工智能和人类的评判与受试者自身人口统计特质的相关性。我们想要看看性别、教育水平或者种族在多大程度上移动了受试者的评判在错误、伤害、意图三维空间的定位。事实证明,任何单项特质导致的移动都并不太大,大多数评判都基于情境本身。不过我们可以运用情境固定效应,也就是将特定情境在通常情况下得到的平均评判当作对照组,以此来考察受试者的人口统计特征会带来哪些变化。我将再次使用图形方法来解释我们刚刚看到的图表。变化在伤害维度格外显著。例如解释图上的第一个条目是宗教,受试者的状态分为信教与不信教。平均来说,与不信教受试者相比,信教受试者给机器行为分配的伤害程度稍微高一点。再来看看性别在替换维度的表现——既是否应该在情境当中用机器替换人类,用人类替换机器,用其他机器替换机器,或者用其他人替换当前的人——男性更倾向于用机器替换人类,女性则相反,更倾向于保留人类并用人类替换机器。正如我所说,这些差异非常小,但是它们可以累积起来,比方说与研究生学历的受试者相比,本科受试者会给机器行为分配稍微高一点的伤害程度。换句话说,本科学历、男性、亚裔这三个特征会在伤害维度朝着更严格地评判机器的方向一起使劲,研究生学历、女性、非裔则会朝着反方向一起发力。这样一来哪怕仅仅基于相关性,人口统计特质也变得更值得考虑了。

在讲座一开始我们问道,如果一台机器和一个人犯了同样的错误,他们得到的反应会一样吗?当然答案显然是“不会”。我人类和机器会根据不同的道德函数遭到评判,而且这些函数不同于阿西莫夫三原则。阿西莫夫告诉我们机器应该如何表现,并且以此为基础写了很多精彩的作品。读过这些作品的人会意识到阿西莫夫之所以伟大是因为他构想了这些原则怎样在复杂的故事情节当中花样百出地失败。在这里我们并非试图提出机器应该如何表现的原则,而是试图理解我们如何评判它们,如何理解它们,如何在一个机器和人类难解难分的世界里思考它们。我们的思想实验让我们学到了一些东西。当人们思考如何评判人类时,他们根据意图评判人类,根据结果评判机器。详细的说法要更微妙一些,涉及函数形式与交互项等等,但是以上是总结浓缩的说法。我们倾向于以非常不同的方式评判人类与机器。我们根据意图来评判人类,根据行为与结果来评判机器。这可能致使行动相同、结果也相同的情境得到非常不同的评判。人们还以双峰方式评判人类意图,以单峰方式评判机器行为——我们认为人类的行为要么故意要么无心,而机器的意图在我们看来往往位于介乎两极之间的狭窄区间。基于这两条原则,你可以推导出我们观察到的许多其他发现。例如我们发现人们在意外情况下更容易原谅人类,因为人类没有意图,也不会因为结果而受到评判。不过在同样的意外情况下人们却不会原谅机器,至少不会那么容易地原谅它们。人们在涉及公平的情境当中对于人类的评判更严格,比如算法偏见和劳动力置换。人们在公平维度特别倾向于严格评判人类行为的意图,无论这些行为是否出自故意。人们往往会对此类情境中的人类进行略微严格一点的评判。人们还会在涉及机器的暴力事件中严格评判伤害,因为他们只关注机器造成的结果,而暴力是情境的结果。人们对机器的成功或者改进更倾向于视为理所当然,我认为这一点对于谷歌这样的公司来说很值得思考,因为这意味着你应用人工智能取得重大成功之后,用户们的反应未必会多么热情,只会觉得“这不是应该的么。”这样一来技术升级可能很难赢得支持。这也是一个有趣的观点,类似观点还有很多。

画面上是这本书的书页平铺展示图,我们今天涉及的只是少部分浅蓝色页面。还有很多实验、很多情境和更多的主题讨论和我在这里没能展示。所以我建议你看看这本书。实体书的质量非常好,我专门雇了许多艺术家为这本书制作了很漂亮的插图。这本书很适合用来在咖啡桌旁引起话头。你可以将这本书当作讨论的起点,无论你打算教授人工智能伦理还是想和同事在工作中讨论。如果你有兴趣获得一本书,这本书已经在2月2日出版了,亚马逊,麻省理工学院出版社或者任何其他大型书店都有售。与此同时,我也在http://judgingmachines.com上提供全书免费下载,无论你想下载还是想截屏都随便,因为我不想让这本书藏在任何类型的付费墙后面。我今天就说这么多,现在我非常乐意接受任何提问。

通宝推:大眼,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河