五千年(敝帚自珍)

主题:320-Lawrence Weschler:怎样跨越诡异谷? -- 万年看客

共:💬2 🌺4
全看树展主题 · 分页首页 上页
/ 1
下页 末页
家园 320-Lawrence Weschler:怎样跨越诡异谷?

https://www.youtube.com/watch?v=8ILNcbu0Ac0&list=PL4i9YSoIJiPeWWDfOimNzy08bFl_pX8Zl&index=11

【Uncanny Valley: On the Digital Animation of the Face, January 15, 2012】

……在电影当中经常出现人脸撞在墙上的画面,但是电影制作人不断撞上的高墙却是人脸本身。数字动画师们一直在追求越发逼真的人脸模拟。事实证明,计算机模拟其他东西相对容易,例如人体。魁地奇比赛的镜头完全通过数字化技术制作,他们不会让真正的小孩子去拍摄特技镜头。这些飞天打球的场景如此惟妙惟肖,以至于孩子们开始在现实生活当中模仿,造成了不小的危险。现在的数字动画师能够制作出成群的人物,还能让他们投入战斗,比如电影《特洛伊》中的战争场景全部通过数字化制作。他们甚至能制作手——手其实很难模拟,但是他们已经做得很好了,甚至就连脏指甲都能模拟出来。但是他们似乎无法做好面部。你在看电影时或许多次感到过银幕上的人脸有什么不对。这种不对的感觉其实有一个专门的技术术语:它们看起来“过于甜腻/icky”。人们总在问如何让数字化人脸看起来不再那么甜腻。大约八年前当我第一次写这篇文章时,数字动画师之间开始争论,理论上究竟有没有可能制作出可信的面部。然后《连线》杂志联系我,告知了这场争论的爆发。我告诉他们我对数字动画一无所知,他们说“所以我们才向你约稿”——我总是因为这个原因才得到约稿——然后我就像洗冷水澡一样跳进了这个全新的领域。这个现象对我来说一点也不奇怪。动画/animation一词的词源是anima,即灵魂,因此问题在于能否数字化地将灵魂动画化。人脸在某种程度上是灵魂的所在地,而腹部、人群或者手则不是。灵魂具有某种极其复杂的性质。

事实上我开始思考我经常在另外的情境里提到的一个人。此人是我最喜欢的历史人物之一,一位生活在中世纪的数学神秘主义者,名叫库萨的尼古拉。他是一位外交官,还是科隆的大主教,但他也是一个数字神秘主义者。他曾经与奉行经院主义传统的托马斯.阿奎那展开过辩论——顺便说一下,他的生卒年月是1401年到1464年。身为优秀的亚里士多德主义者,阿奎那一直在对世间万物进行规模浩大的库存清点。在他看来世间万物都可以登记造册,记录所有的鱼,所有的动物,所有的花,所有的岩石,所有的伦理原则,所有的政治思想。如果你的登记册能够涵盖一切造物,那么你就能够真正理解造物主。尼古拉认为这种想法不太对。想象一个圆圈里面有一个有n条边的规则多边形——比方说三角形加一边就变成了正方形,再加一边又变成了五边形,你不断增加边数,最终就会得到n边型——边数越来越多,n边型也越来越接近圆型。但是库萨指出这说法不对,n边型只会距离圆形越来越远——一个是有百万条边的多边形,另一个是只有一条边的圆,一个是有百万个角的多边形,另一个是一个角都没有的圆。尼古拉主张,在某个时刻我们必须做出信仰之跃——这个短语最早就是他发明的——从直线跃向弧线。这一跃只能通过信仰来完成,只有在上帝恩典的护佑下才能成功。姑且将上帝搁置在一边,对我来说这个比喻似乎正是人脸数字动画的从业者们面临的挑战。随着他们越发领悟数字动画的技艺,他们正在增加越来越多的边,但是他们距离那神秘的圆弧——人类面孔的自然特质,或者说灵魂——却越来越远。

话虽如此,这些家伙们依然玩得很开心——顺便说一句,他们大多数是男性——成为数字动画师确实是全世界最有趣的工作。例如亨德里克.胡安.扬森,他曾经是斯坦福的一名教授,现在在圣迭戈工作。他倾注毕生的事业就是牛奶的数字动画化。用数字动画来呈现桌面的金属或者塑料质感,或者昆虫的甲壳,或者恐龙的外皮,这些都很容易,无非是牛顿光学的水平。只需运用一套久经考验的公式就能完美模拟光线在恐龙外皮上的反射。正因为如此,最早的数字动画片的主角才会是塑料玩具、蚂蚁昆虫以及恐龙。真正困难的题材是一只斟满牛奶的玻璃杯,还有一个人造光源绕着杯子周围旋转。原因在于光线射入牛奶时,光子并不会直接反射回去,而是会在无数乳质液滴之间来回弹跳,最终射出牛奶的角度也是各种怪异。一台笔记本电脑的算力就能渲染昆虫甲壳,但是却需要超级电脑才能渲染牛奶。扬森向我展示了他关于这一课题撰写的传奇论文,用二十页篇幅解释了光线射入一玻璃杯牛奶之后会发生什么。我让他亲口跟大家讲解一下——

“熟悉的材料如果少了次表面散射,看起来就完全不对。不透明的牛奶看起来更像白色油漆而不是牛奶。”

——顺便提一下,当他向我展示这段视频的时候特意提醒我:“看啊,我做出了弯液面。”我说:“什么?”他说:“弯液面就是牛奶接触到杯子的边缘处会稍微上升一点。大多数人不会注意到这一点,但如果没有它看起来就不对。”这是典型的数字动画师会说的话,他们认为任何微小的错误都会让整个作品显得不对。在这哥例子里,他对弯液面非常自豪。但是实际上,画面上这杯牛奶看起来依然不对,更像是一杯油漆。扬森这样告诫我:“恐龙很容易,牛奶很困难。”无论如何,光线照在人脸上的方式无论编程多么复杂且耗时,最终都能解决。可能需要20页代码,不过归根结底可以用数字动画进行建模。再来看看下面这个题目:“她一看见他走进屋门,神色登时焕发了起来。”不仅要表现自外而内的光照,同时还要表现自内而外的表情,这就是数字动画建模的下一个大课题。

在我准备采访各位从业人员之前,我花了一晚上时间阅读一篇精彩的文章。画面上这张脸属于让-保罗.萨特,他有一篇相对难找但很精彩的文章。他在文中写道:“只有嘴唇在动,但是整张脸都在笑。”不过事实证明这话并不完全正确,当嘴唇移动时人的脸上还会发生很多其他细微变化,有一个细节做错了就无法得到正确的效果。萨特在探讨人脸时举了一个大理石半身像的例子来加深人脸与石像之间的对比——顺便提一下,扬森除了牛奶之外也研究大理石像。之所以牛奶在数字动画当中如此重要,因为眼白的光学特性就像脱脂牛奶一样,如果你不能正确处理光线,动画人物的眼睛看起来就像玻璃球。此外白种人的皮肤的光学特性也很类似牛奶。我还是让大家听听扬森自己的说法:

“传统的照明模型假设光线仅在表面反射。这产生了一种硬质的、计算机质感的外观。相比之下,我们的模型正确地模拟了光线在材料内部的传播,这一特质融合了表面特征,导致了更为平滑的外观。”

萨特也提到了大理石半身像。扬森研究大理石是因为因为白种人的皮肤与大理石半身像具有类似的光散射性质,萨特的想法则更加务虚:“大理石像存在于普遍时间中,或者说有始有终、时刻分明的时间,或者说沙漏的时间与节拍器的时间,也就是固定不动的时间。”大理石像“漂浮在永恒的现在”。但是人脸却“在普遍时间内创造了自己的时间,与房间的静止背景相对,活体的时间凸显了出来。在这些悬停在现在的钟乳石之间,人脸具有明确的指向性。人脸警觉而又好奇,总是领先于我投向它的目光。于是些许未来通过人脸进入了房间,雾气般的未来围绕着人脸。这是人脸的未来。”萨特继续辩称,人脸“不仅仅是身体的上端部分。诚然,它也是肉体,但却不同于腹部或者大腿。它所拥有的额外特质是它的活力。它的外表布满了贪婪的孔洞,其中最贪婪、最饥肠辘辘的孔洞当然是眼睛。”因为“两个球体在它们的轨道上转动,于是眼睛变成了目光,并且在这个过程中改变了它们正在观看的东西的本质。而且这种改变是相互的。如果我观察他的眼睛,就会看到这双眼睛并非固定在他的头上,像玛瑙或者大理石那样平静。它们时时刻刻都被它们所看到的东西不断创造。”由此萨特得出结论:“如果我们将超验/transcendence解释为心灵越过自身以及所有其他事物的能力,或者说心灵逃避自己从而在别处迷失自己的能力,那么一张脸的意义就是成为可见的超验。”“成为可见的超验”就是萨特对于“人脸具有或者体现了灵魂”这一命题的表述——他竭力避免使用灵魂这个词。那么可见的超验又要怎样通过数字动画来表现呢?刚才我说过,动画一词的词源是灵魂,因此制作动画也就相当于赋予灵魂,而这么做当然非常非常困难。

“不过我们用不着做到这种地步。”在我采访工业光魔公司动画师的第一天,我向他们提出了萨特的主张,而他们则这样回答我。“我们的任务本来就不是以100%的保真度模拟真实的人脸,我们的任务仅仅是欺骗观众而已。只要能骗过观众,我们的任务就完成了。”话虽如此,哪怕仅仅做到这一步也依然很不容易。人脸具有成百上千的微小细节,每一处都需要恰到好处。这份工作的讽刺之处在于,成功的衡量标准恰恰是这些细节是否全都遭到了完全忽视。工业光魔公司的另一位员工评论道:“一旦观众注意到任何东西,我们就失败了。”

艾德.胡克斯是一位演员兼表演教练,最近开始指导动画师。动画师们面临的矛盾挑战令他感到十分惊讶。他站在创作过程的接收端看待问题:“我告诉他们,‘要让观众惊讶,但是不要引起他们的注意。’”顺便说一句,当我和胡克斯交谈时,他谈到了指导演员与指导动画师的区别。“当我指导演员时他问我,‘这里我应该扬起眉毛吗?’我的回答可能是‘我不知道,不要考虑你的眉毛,考虑你试图传达的情感,眉毛会自己照顾自己的。’”话说到这里我跑个题,提一嘴沃尔特.默奇这位伟大的剪辑师。他剪辑过从《英国病人》到《现代启示录》、从《窃听大阴谋》到《教父》三部曲再到《锅盖头》等等名片,堪称剪辑之神。有一天他和我谈到了眨眼的问题。他说他在多年从业期间注意到,眨眼的功能不仅仅是滋润人们的眼睛,还能在他们脑海里的思想之间充当标点符号。一个人有了一个想法,当这个想法结束时他们就会眨眼,然后继续下一个想法。电影剪辑师应当注意到这一点,因为好演员在角色的想法结束时眨眼,而不好的演员则在他们自己的想法结束时眨眼。例如,一个不好的演员念完了长篇独白的重要部分,然后开始下一部分,这时他们会眨眼,心里想着“我希望导演喜欢我刚才的表现。”或者“我刚才感情太充沛了。”这就是错误的眨眼方式。剪辑师有若干种方式来确定演员的水平,其中之一在于最自然的剪辑时机总是在演员眨眼的时候。这也是胡克斯传授给真人演员们的小技巧。当演员问他“我应该扬起眉毛吗?我应该眨眼吗?”他只会说“我不知道。首先你得进入角色,然后再来讨论表现手段。”但是在指导动画师的工作时,情况正好相反。这是一个由外向内的构建过程。动画师不会体验情感,情感只能通过诸如挑眉眨眼这样的具体动作来传达,而且所有动作都必须精确校准。挑起眉毛——要挑多高?当眉毛挑起来时下巴会发生什么?眉毛这边的耳朵会发生什么?另一边的耳朵又会发生什么?这些细节首先必须被动画师注意到,然后才能得到编程与体现。动画师全都是洞察秋毫的观察高手。

我在数字动画师的战壕里猫了几天,学到了以下事实:

——愤怒可以通过皱眉来表示,但是皱眉同样可以表示聚精会神,两者的区别在于眼睛上方的肌肉。

——眨眼不仅仅意味着上眼皮向下切割,因为下眼皮也会同时被向上拉起并且朝着鼻梁向内拉动,此外在远眺时两个瞳孔也会向鼻子靠拢。

——要想从远处判断某人在看哪里,可以依据此人眼睛的形状,即眼眶肌肉压迫眼睛的方式以及眼白的分布,因此我隔着老远就能看出来你是否正在看我,即便在光照昏暗的环境里我也可以通过最微小的细节确定这一点。从进化角度考虑,能够做到这一点非常重要。好比说我现在站在讲台上也能看出后排哪位听众眼神涣散百无聊赖,而后排听众也能看出来我正在看哪里。你的眼白与黑眼珠在我的视域当中极其微小,但是我依然一眼就能注意到。因此在制作动画时眼白决不能出错。

——要想在特写镜头当中表现眼睛,真正难以表现到位的是眼睛周围的组织,比如半月皱襞和泪阜——也就是说内侧眼角与鼻梁相交处的那块粉红肉点——它们会随着瞳孔一起移动,整个上眼睑也是如此。如果这些细节弄错了,画出来的人物就会沦为仿真机器人。

——面部各处皮肤的质地与弹性并不一致,一切都取决于皮肤下面的骨骼、肌肉与脂肪,更不用说皮肤本身了。因此各处皮肤拉扯起皱的方式也不相同,每一块区域都需要不同的算法。

——唾液在口中流动的物理特性与电影《完美风暴》中汹涌的大海相同,两者的算法都可以用来模拟对方,工业光魔就是这样做的。

——梦工厂制作《怪物史瑞克》时曾经不遗余力地模拟了史瑞克的小舌——也就是悬挂在史瑞克那张山洞一般的大嘴后面的那个小东西——确保其能够确地颤动与振动。不过并不意外的是,当史瑞克的嘴巴张开时,小舌完全被黑色阴影遮挡了。

——当嘴巴张开时不仅仅是像车库门一样上下开合。由于唾液的粘性,嘴唇会像拉链一样朝着两个嘴角解开。

——下面的方法可以辨别真心的微笑与被迫挤出来的假笑:真心微笑时上眼睑会稍微下垂,假笑时则不会。这一点不能假装。

有一个名叫保罗.埃尔德曼的家伙,他是个疯子,但是个很有趣的疯子。他将所有可能的存在面孔编纂成册,总共收集了五千多种。这让我想起了我在纽约大学的同事在讲课时说过,有一位年轻的社会学研究发现,每一位工匠——无论是鞋匠还是古典钢琴家——都需要10000小时的练习才能在各自的领域达到精通。我记得我对朋友说,提出这个事实的社会学家肯定没有10000小时的社会学家经验。顺便说一句,人类和机器人的区别在于他们在任何给定的时刻都不会只有一种感受。任何一个人类在任何时候都有三到四种不同感受。如果某人只有一种感受,我们就将他们称作偏执狂或者死心眼。所以即使你选择了埃尔德曼的五千种面孔当中的一种,也不意味着你就一定能正确地将其表现出来。

书归正文。人脸是身体上唯一一处肌肉不一定附着在骨头上的地方。面部肌肉经常相互交叠,这一事实给早期的解剖学家带来了巨大的挑战,他们往往发现自己刚一割开皮肤就破坏了整个面部肌肉系统。这也有助于解释为什么对于当前的动画师来说,腿部和手臂的建模要比面部容易得多。四肢几乎完全遵循牛顿力学,只是滑轮和杠杆的结合,而人脸的结构则要复杂得多。要真正准确地表现人脸,就必须将其与整个身体一起建模,否则可能会得到一种奇怪的效果,即身体是这个意思,而脑袋是那个意思。同一套肌肉在不同肤色下也会传达不同的情绪,完全相同的算法会因为肤色的黑白之分得出完全不同的表情。这还没说到头发的问题——千万别问他们头发的事,那又得写一篇论文。

不过动画师们已经注意到了很多这样的细节,而且他们每天都在注意到越来越多的细节。他们的多边形已经有了无数条边。现在有两种不同的数字化人脸制作方法,一种是建模,另一种叫做面部捕捉。第一种方式的代表作是《怪物史瑞克》。这种方式相当于将老式的卡通画法应用在了数字动画领域。建模师首先必须构建骨骼、肌肉和皮肤,等到全部构建起来之后,动画师就将建好的模型当成了提线木偶,在这里提起这块肌肉,在那里提起那块。建模者必须想出所有可能的动作,然后他们把模型交给动画师。或者说建模者负责制造汽车,动画师负责驾驶汽车。建模师要学习大量解剖学卷宗,他们站在镜子面前观察自己的动作,花上一辈子的观察自己的泪埠,用各种手段建立起不可思议的人体动画知识库存。

当时动画师队伍当中的女性数量极少,其中有一位名叫露西亚.莫德斯托,她参与过《蚁哥正传》和《怪物史莱克》两部电影的制作。下面是她接受采访的片段:

“从发型到服装,我们尝试增加场景的复杂性,从而让场景看起来更可信。我们将动画角色当成空瓶子,然后把所有的关节骨架放进去,把肌肉放进去,把皮肤贴上去,把所有的动画控制机制放进去,这样动画师就说‘我想弯曲胳膊或者举起胳膊’,他们只需要操作负责弯曲手臂的控制键就行。我们负责所有动画角色的内部构建,我们构建底层软件从而给动画师提供控制。我们设置身体,设置头发,设置服装,还要负责所有的面部动画。”

当我采访她的时候,她在史瑞克的3D可旋转头部模型上给我展示了两个不同的皱眉效果,其中一个考虑了眉毛下面的骨脊,另一个没有。她说:“第二个效果显然是错误的,因为没有考虑到史瑞克的头骨,以至于肌肉和皮肤从头骨上滑了过去。要知道,皮肉下面是有头骨的。”她加重语气说道。然后她又有点羞怯地承认:“其实并没有,这一切都只是数字,但是你懂我的意思。”所以她可以挑眉或者蹙眉。另一个人则有另外的方式,他让眉毛与曲线对应,眉毛在曲线的这一段以某个速度上挑,在另一段下垂。如果你想让眉毛上挑更长时间,只需要把曲线推得更高。但是在某种意义上,这种动画并未摆脱提线木偶戏的传统:拉动一根绳子,手臂就上升,拉动另一根,头部就会转动。只不过这里你操纵着数十块面部肌肉,意味着更多的绳子与更多的操作会随着数字动画的更新换代而不断增加——一代也就是五六年的工夫。很容易看出,随着时间的推移,动画背后的机制很可能变得难以理清。维特根斯坦曾经主张,哲学思想能够解开我们思维当中的绳结,得出更简单的结果;但是哲学思考必须像解开的绳结一样复杂。建模师与动画师就好比思考身体的哲学家,他们的问题只会变得越来越复杂,而不是越来越简单。莫德斯托曾经告诉我,以这种方式进行动画制作可能会变得过于困难,控制键可能会多到让任何人都无法驾驭动画角色的地步。而且别忘了,我们要模拟的人脸完全不需要多加思索就能自动做出一切表情。我记得有一次与洛杉矶的一位灯光导演的聊天。我们在圣莫尼卡的帕利塞德看着太阳落山,面前是洛杉矶特有的美丽日落,天空和云朵浸透了粉红色与橙色,甚至还有一点绿色,真是令人叹为观止。我们就这么看着,当太阳沉入海平面之下的时候,这位导演转过身对我说:“真是难以置信,那家伙只用一个单元就能达成这样的效果。”我们自己的面部同样也是能够达成这种效果的单一单元。

模拟人脸的另一种方式叫做面部捕捉,这是动作捕捉的变体版本。特效人员在演员身上涂满追踪点然后拍摄,捕捉各个点的运动,然后用线连接点,从而获得完整的身体与面部图像。他们的工作方式与建模截然相反,他们毫不关心骨骼、肌肉与皮肤,他们只想知道人脸表面的状况。第一部真正利用这项技术拍摄的数字动画电影是《最终幻想》,刚问世时被奉为这方面的全面突破。当时他们这样宣称:

“这就是人体的运动,而不是对于人体运动的体现。这是全新的动画制作方式。”

追踪点越多,得到的效果就越好。不过这部影片的效果实际上相当糟糕的,制片方花费了一亿美元,结果赔得很惨,因为这这种做法得出的人脸始终差点意思。增加更多的追踪点能让你越来越接近真正的人脸,但是我们依然没能解决库萨的尼古拉提出的问题。这让我想起了博尔赫斯有一篇关于绘制地图的故事,说是某个国家的制图技术如此高超,以至于一个省的地图能铺满整个城市,全国地图能铺满整个省份。然后有人绘制了一张铺满整个国家的全国地图,地图上的每个点都与国家的每个点相对应,可是国民们意识到这张图根本没法用。于是制图艺术遭到废弃,地图被乞丐和骆驼占据。有一次我问他们:“为什么不干脆让真人演员露脸?”,他们都说:“我不知道。我都想不明白甲方为什么花钱让我们干这个。你别问了,再问我们都得失业。”

然后我们又遇到了另一个问题。这画面上这些面孔全都令人反感,但是又说不出来哪里不对。这就是所谓的诡异谷问题。诡异谷的理念由一位伟大的日本佛教机器人学家森昌弘提出,他认为,如果你制造一个机器人——他在二十五年前谈论的是机器人——而且这个机器人与真人的相像程度达到了80%,那太棒了;如果达到95%,人们会欢呼你的名字;但是只要再前进一步达到96%,结果就会变成彻底的灾难,因为你掉进了诡异谷。后退一步,你的机器人栩栩如生;前进一步,你的机器人就有什么地方不对劲。你在诡异谷里掉落得越深,这个机器人就变得越发令人反感乃至毛骨悚然,你也越发不明白究竟哪里不对。我们体内似乎具有某种辨别人脸真假的探测器,显然可以追溯到人类进化的开端。我一直在告诉你们人脸的复杂度怎样难以置信,而人脑更是人类在宇宙中发现的最复杂的东西。人脸在某种程度上确实是我们身上最复杂的东西,比我们的肚子甚至双脚要复杂得多——脚的结构同样相当复杂——甚至比心脏或者其他器官更加复杂。因此大脑当中用于解读面部的部分远远超过了用来解读宇宙当中其他任何事物的部分。所以当大脑审视人脸时,不仅仅意味着一个难以置信的复杂事物正在审视另一个,而且还意味着审视过程极其敏感。诡异谷问题正是源自于此,因为只要一点点错误就会让人觉得毛骨悚然。

起初数字动画师处理人群的时候——例如要制作战争场景——就遇到了诡异谷。但是他们始终坚持前进。他们在95%相像度的时候进入诡异谷,达到98%的时候几乎已经出来了。但是对人脸来说,至少到目前为止似乎还没有走出诡异谷的迹象。你在95%的时候掉进诡异谷,到了99.9999%的时候仍然出不来。哪怕只有0.0001%的偏差也会令人毛骨悚然。模拟人脸能否跨越诡异谷已经成了理论问题。这几乎就像哥德尔的不完备性定理一样,即系统不能包含自己。有灵魂的人似乎注定会被数字动画制作的人脸吓到。

话虽如此,数字动画人脸仍然有其用武之地。在我采访期间发现了一项最让我惊讶的用途:他们告诉我,他们已经开始使用、将来还会更多地使用数字动画来重新激活那些打过肉毒杆菌素的演员在大银幕上的面孔。例如雪儿是一位出色的演员,但是某些她过去能做的表情如今已经做不出来了。迈克尔.杰克逊也是如此。顺便说一下,《花花公子》模特也面临着类似的问题。我有一个在芝加哥的《花花公子》总部工作的朋友——这是十年前的事了——她说每个月的某一天联邦快递都会从洛杉矶寄来一个包裹,里面是休.赫夫纳对于杂志中央折页的审查意见,这是整份杂志当中他唯一会亲自审查的部分。海夫纳会用油性笔圈出模特照片上的每一处皱纹和瘢痕——其他人往往注意不到——并且要求这些瑕疵全都被修饰掉。所以《花花公子》模特看上去才如此完美。然后现实当中的女性又试图通过手术让自己看起来像是《花花公子》模特,以至于这个循环变得越来越奇怪。区别在于用软件修图不伤身体,用手术修改身体的后果则很难说。此外数字动画师还能让老演员说出新台词乃至广告词:

“玛丽莲.梦露从未说过‘我知道你的意思’这句台词,但是图像矩阵技术却可以让她说出来。《我爱露西》里的弗雷德和埃塞尔从未卖过处方药,他们现在会了。”

还有更瘆人的新情况。这是一家公司的广告,画面上的人物真的很糟糕。她在说话时两个耳环都没有动,而脸部的其他部分却都动了。这是数字动画人脸出错的经典例子。其他容易出错的地方还有开口说话时牙齿后面的黑色缝隙。制作这段动画的画师显然认为说话的动作仅仅局限于脸部,只要让角色眨几次眼睛就足够真实。但是她眨眼的时刻完全对不上说话的节奏。

你们可能记得,电影《楚门秀》的编剧的下一个剧本叫做《西蒙妮》,他还亲自导演了这部相当不错的电影。西蒙妮/S1m0ne其实就是“模拟一号”的意思,在剧情里她是全世界第一个人工创造的女演员。男主角阿尔.帕西诺通过软件创造了她。在拍摄影片时,他们实际上找了一个真正的女演员瑞秋.罗伯茨扮演西蒙妮,但是不得不将她的影像加以处理,让她的脸看上去好像打多了肉毒杆菌素,好让观众意识到她扮演的角色不是真人。换句话说,他们没有真正制造一个模拟女演员,而是找了一个真人,然后在一定程度上破坏了她的真人气质。

还有一个相当迷人的现象:数字动画技术随着每次迭代变得越来越强大,但是呈现人脸的效果却并未随之相应改善。比方说梦工厂在制作《怪物史瑞克3》的时候就遇到了一个关于菲奥娜公主的危机。一代的菲奥娜公主就像木偶一样。到了三代的时候他们的技术已经非常出色,他们为此感到非常自豪,于是向一屋子六岁小孩展示了最新技术加持的菲奥娜,结果吓得孩子们哇哇大哭。梦工厂不得不转而采用没那么先进的技术来制作菲奥娜公主。他们不断前进,结果就掉进了诡异谷。

以上全都是我在八年前第一次采访数字动画行业时记录下的内容。今天的情况又有了更新的进展。今天的技术肯定更加进步了,但是真正重要的大事是《阿凡达》的上映。《阿凡达》的导演詹姆斯.卡梅隆长篇大论地声称他已经越过了诡异谷。我们听听他自己的说法:

“卡梅隆首先必须确保他的技术能够越过在机器人学和数字动画当中被称为诡异谷的东西。”

“【詹姆斯.卡梅隆】假设这边有一个绝对是人的角色,那边有一头会说话的麋鹿。随着你从麋鹿那头逐渐接近人类这头,角色的吸引力会逐渐下降下降。然后在最后一秒,就在你达到真正的人类外观时,吸引力又会上升。我们需要越过吸引力曲线的这个低谷——也就是诡异谷——到达另一边。我们用不着相信这些角色像照片那样100%的真实;我们不必相信这些角色实际上存在,但我们必须相信它们确实是有情感的生物。所以我们设计出了我们称之为佩戴式扫描仪/headrig的东西,它基本上就是一种非常紧密贴合头骨的头盔,基于演员头部的激光扫描数据铸造,所以能够非常紧密、平滑、舒适地贴合。对着演员面部有一根碳纤维杆伸出来,杆的前端有一个小摄像头,拍摄脸部的特写镜头。所以即使演员四处移动,奔跑、跳跃、大喊大叫、尖叫、跳过原木,全力以赴地投入动作戏,我们依然绝对锁定了他们的面部表情。”

“他们可以录制演员的全部面部运动,从演员的嘴唇到他们的眼睛。”

“【詹姆斯.卡梅隆】事实证明这就是所有人都在寻找的、制作CG人脸的万全方法。”

不对,不对,出于两个原因他说得不对。首先,《阿凡达》里的CG角色都是是蓝色的,他们脸上涂满了蓝色的金属漆。我们已经确定了做到这一步很容易,因为相当于将皮肤的质感替换成了塑料的质感。另一个原因在于这些角色都是外星人,看上去本来就应该很诡异。所以事实上卡梅隆根本没有越过诡异谷。

现在真正推进数字化人脸的领域是电子游戏而不是电影。例如《黑色洛城》就在这方面做了很多工作。你们当中有些人可能知道这个游戏:

“【Brendan McNamara,编剧兼导演】长期以来,我们能够在电子游戏里制作看起来不错的建筑物,我们能够制作看起来非常真实的汽车,我们的现实主义水平随着技术进步而不断提高。凭借之前的面部动作捕捉技术,我们从来没有真正感觉到我们能够完美重现人脸。我们无法真正确定CG形象是不是正在撒谎。凭借我们现在的技术,所见即所得。”

“我历来乐意帮助洛城警局。【利兰.门罗,由演员John Noble饰演】”

“【Brendan McNamara,编剧兼导演】《黑色洛城》是一个侦探故事,因此演员表演的真实性是游戏玩法的关键。”

“【Oliver Bao,研发部负责人】这正是我们系统的一个关键优势。我们实际上可以看到所有细微特征,这是传统CG动画无法做到的。”

“科尔.费尔普斯,交通科的。这里什么情况?【科尔.费尔普斯,由演员Aaron Staton饰演】”

我吐槽一句,这位Aaron Staton本来长得就有点像机器人。

“【Aaron Staton】这的确是真正的表演,只不过要分成两部分来完成。一部分是动作捕捉,另一部分是表情扫描。”

“【Brendan McNamara,编剧兼导演】当演员说话时,表情被处理并转化为3D。”

注意,这些角色的身体和面部表情并不匹配。

“【Oliver Bao,研发部负责人】我们从2D视频过渡到了3D网格。”

“我认为你在撒谎,里克。我认为你们当中有些人并没有拿到牌照。你只是急于掩盖你的销量而已。【科尔.费尔普斯,由演员Aaron Staton饰演】”

一段时间以来有一种相当有趣的说法:假如人们真能跨越诡异谷,最早实现这一点的仿真对象要么是黑人,要么是老人。之所以是黑人,因为黑人皮肤的反光性质要简单得多,不像我们之前谈论的牛奶那样棘手,之所以是老人,因为我们习惯了镜头前的老年演员化浓妆,而且老人的皮肤也不那么柔软,有一种不同的光泽。再来看一段某个最新CG系统的演示:

“在这个过程的开始,我不得不深思熟虑:‘你是不是在欺骗自己?还是说你真的认为你能做到所有一切?我决定我可能真的能做到,尽管并不一定。【巴拉克.奥巴马】”

请注意,这段CG的黑人皮肤看上去有点发白,这是光线直接反射的结果。我之所以特别喜欢这段视频,因为动画师借助奥巴马之口说出了他们自己的想法:“我们能不能做出足以乱真的CG?未必做不到。”

……

最后我想展示一些我认为最有趣的进展。接下来的人们确实在某种程度上跨越了某些东西,但是我认为他们的成就在于技术挑战。我在过去八年见过的最好的CG人脸是工业光魔公司的一个8秒钟小片段。这个动画片段的主角是个名叫雨果的妖精,他的台词是:“我?不可能是我,必须是另一个家伙,我是真的。”他对于自己是否真实的焦虑如此显著地影响了观众,以至于观众往往不会注意到他的耳朵画得不对。这是八年前的作品,现在的工业光魔已经找不到原始文件了。数字文件其实很容易丢失,比方说整个克林顿政府的内部记录对历史学家来说已经消失了,因为所有的电子邮件等等都已经不复存在,想找都找不回来。雨果就藏在工业光魔的文件库里,他们都记得它,就是找不到它。

接下来的视频出自Bob Sabiston的创意。他拍摄了一段人物访谈,将其截成30秒一段,然后找来三十个动画师按照各自的风格分别绘制片段当中的人脸。在我看来,这些手绘人脸虽然造型变化无常,却在很多方面比我们之前看到的很多CG人脸更真实。原本的访谈影片拍摄于华盛顿广场,随便找了个路人:

“——你怎样看待占星术?”

“——可能有些道理。但问题是当你遇到占星家,他们会告诉你两件事,两件积极的事情和两件消极的事情。如果他们知道要发生什么,为什么他们不去预测911的悲剧?我不接受占星术,如果你想接受它,如果你觉得它是真的,那是你的事。你的命运在每一刻都由你创造,由你的想法、你的感受和你的行为创造。你的命运取决于你的思维,感受和行动的质量。”

在某些方面,这些手绘动画反而更直接地反映了人脸的特质。我认为部分原因在于配音。所有接受我采访的动画师都同意配音对于动画的魔法至关重要,既能分散观众对于细微缺陷的注意力,也能推动观众继续前进。但是配音的主要效力在于营造故事。以雨果视频为例,尽管只有八秒钟,但是他的台词却讲述了完整的故事:“我?不可能是我,必须是另一个家伙,我是真的。”一旦关掉声音,你就会立即注意到雨果的两个耳朵十分僵硬,眨眼时眼睛的移动方式很不自然,皮肤质地好似橡胶,口腔内部缺乏内唇、舌头和牙齿的细节。但是一旦他开口说话,我们立即被带入了故事,被带入了令人信服且吸引人的叙事——这正是《最终幻想》所缺少的东西。讽刺的是,我们倾向于将一切事物都作为叙事加以体验,可是这种倾向正是我们的肉体本质的核心。我们的胰腺分泌胰岛素,我们的胆囊分泌胆汁,而我们的大脑则分泌故事。这就是我们的天性。

有一个关于两位牛津学院院长的故事——这个故事有些性别歧视,如果你不喜欢的话不妨调转其中各位角色的性别——两个牛津院长,一个是数学学院出身,另一个是工程学院出身,他们谈到了芝诺悖论,或者说飞矢不动悖论。一支射出的箭要想到达射程的一半,首先必须到达一半的一半,而这又意味着首先必须到达一半的一半的一半,换句话说飞矢永远无法到达目标。按照芝诺悖论的说法,圣塞巴斯蒂安并不是被乱箭射死的,而是死于心脏病发作而死。总之他们正在对话的时候,一个美丽的女人走过他们身边。数学家看着她,想着芝诺悖论,意识到自己永远无法拥有她;但是工程师知道自己只需要足够接近她就能满足各种实际目的。同理,数字动画师们正在为了满足实际目的而接近人脸,也许他们将来真的能够跨越诡异谷。

通宝推:桥上,
家园 怎样跨越诡异谷?完

在过去四五年我看过的最感人的数字动画短片名叫《贝壳马塞尔/Marcel the Shell》马塞尔是一个小贝壳,在贝壳开口处突出了一只眼睛,下面是两只穿着鞋的脚。短片只有三分钟,但是非常打动人:

“我的名字是马歇尔——啊呀我又说错了——我的名字是马塞尔。我是个贝壳,但是我也有鞋子和,呃,一张脸。所以我喜欢我自己这一点。我还有很多其他的优点……”

“我生活当中的一个遗憾是我永远没法养狗,但有时我会把一根头发绑在一块棉絮上,拖着它到处走。它的名字是艾伦。猜猜我在哪里找到它的?在一颗牙齿下面。他们都说棉絮是贝壳最好的朋友。”

“你想看我试着举起来这个吗?我试试。哎呀不行不行,我什么都举不动。”

“有时候人们说我的头太大身体太小。然后我会问,跟什么比?”

“过来,过来,艾伦快过来。我爱你。”

想想看,你对于这个怎么看都不像人的大眼睛小贝壳的感情就和他对于棉絮艾伦的感情是一样的。我女儿今年二十五岁了,有时候她手脚磨蹭我还是会这么叫她:“过来,过来,我爱你。”你不禁要相信,那个贝壳对于沾满灰尘的棉絮团的喜爱,就像你对于这个小贝壳的喜爱一样真实,一样发自内心。这种效果比起《阿凡达》的全套特效更有力,而且成本只有后者的十亿分之一。归根结底,关键在于叙事,在于故事的吸引力与投射力。

多年前我刚开始写作的时候——那时我差一点不到三十岁——我想出了一个很棒的创意:我要回到我上幼儿园的地方,在课间和孩子们一起闲逛,听听他们讲给彼此的故事与笑话等等——今天在美国谁敢这么干肯定会立刻遭到逮捕——最令人惊讶的是,当时我听到的笑话与我当年上幼儿园时听到的笑话完全一样,当时讲笑话的孩子就像我当年的幼儿园小伙伴一样完全不明白这些笑话是什么意思。这些笑话都是模糊的性笑话,而且讲笑话与听笑话的孩子们全都懵懵懂懂——至少在我进行这项研究的时候是这样,我不知道今天的孩子们是否懂得更多——比方说“萨莉告诉她妈妈,‘妈妈我今天赚了一美元。’‘你怎么赚的,亲爱的?’‘男孩子们打赌我爬不上旗杆,可我还是爬上去了。’‘傻丫头,他们那是想看你的内裤。’‘所以他们都上当了,我没穿内裤。’”这样的笑话你们想必都知道许多。这让我想到,也许这个星球上真正活着的东西是故事与笑话。勒梅街中学的操场上或许栖息着一窝笑话,活人的河流每天穿过学校,滋养着这些真正的活物。

智者说,上帝之所以造人,是因为祂想听故事。这位智者是布拉斯洛夫的纳赫曼拉比/ Nachman of Breslov,伟大的哈西德派故事讲述者。他讲过一个故事,说是有一个拉比听说大屠杀即将来临,于是他去了森林里的秘所,点燃了秘火,念诵了秘密祷文。然后他向上帝祈求道:“神啊,这样做肯定够了吧,这样做肯定够了。”于是在他这一代人期间,大屠杀没有发生。到了下一代,祈祷的责任落在了老拉比的儿子身上。另一场大屠杀又悄然逼近,可是儿子不知道森林秘所的位置。于是他在自家后院按照父亲的方式点燃了秘火,按照父亲的方式念诵了秘密祷文。然后他向上帝祈求道:“神啊,这样做肯定够了吧,这样做肯定够了。”于是在他这一代人期间,大屠杀没有发生。到了再下一代,祈祷落在了他的儿子、老拉比的孙子身上。孙子不再知道如何点燃秘火,他只知道秘密祈祷。于是他念诵了秘密祷文。然后他向上帝祈求道:“神啊,这样做肯定够了吧,这样做肯定够了。”于是在他这一代人期间,大屠杀没有发生。然后到了第四代,老拉比的曾孙不知道森林秘所,不知道如何点燃秘火,不知道秘密祈祷的内容,他只知道这个故事。于是他向人们讲述了这个故事,然后向上帝祈求道:“神啊,这样做肯定够了吧,这样做肯定够了。”事实上,这样做也确实够了。智者说,上帝之所以造人,是因为祂想听故事。也许这句话反过来同样成立:人之所以创造上帝,是因为我们也想听故事。又或者说其实是故事创造了我们与上帝,因为没有我们与上帝,故事自己也无法存在。哈利路亚,阿门,谢谢大家。

全看树展主题 · 分页首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河