主题:【神经科学科普】惊人的假说--灵魂的科学探索(目次,前言) -- 衲子
作者:弗兰西斯.克里克 (衲注: 诺贝尔奖得主,去年去世)
------------------------------------------------
前言
第01章 引言
第02章 意识的本质
第03章 看(Seeing)
第04章 视觉心理学
第05章 注意和记忆
第06章 知觉瞬间:视觉理论
第07章 人脑的概述
第08章 神经元
第09章 几类实验
第10章 灵长类的初级视觉系统
第11章 灵长类的视皮层
第12章 脑损伤
第13章 神经网络
第14章 视觉觉知(1)
第15章 一些实验
第16章 种种推测
第17章 振荡和处理单元
第18章 克里克博士的礼拜天(1)
关于“自由意志”的跋
-----------------------------------------------
前言
本书试图用科学方法来解释意识的奥秘。在此,我并非想给出关于意识问题的直截了当的答案。我倒希望能够如此,但是目前似乎太困难了。当然,某些哲学家误认为已经解决了这一问题,但对我而言,他们的解释并不属于科学真理的范畴。这里我想做的是勾划出意识问题的本质,并提出一些如何用实验方法来研究这一问题的建议。我将要提出的是一个特定的研究策略,而不是一个充分发展的理论。我想要知道的是,当我看某个东西时,在我头脑中究竟发生了什么事情。
某些读者也许会发现这种思维方法有点令人失望。因为它有意避开那些他们乐于听到的关于意识的许多议论,特别是如何定义意识。仅仅靠争论清楚关于战斗一词的意义,你不可能赢得胜利。你需要一支训练有素的队伍,装备精良的武器和出奇制胜的谋略,然后才能有效地击溃敌人。这些同样适合于解决一个困难的科学问题。
本书是为那些对于意识问题有科学兴趣却没有专业知识的一般读者而写的。这意味着我必须用相对简单的术语去解释关于意识的方方面面。即便如此,某些读者仍会发现本书的某些部分难于理解。对此,我想说:不要因为那些不熟悉的争论和实验细节的复杂性而泄气。再坚持一下,或者干脆只是浏览一下这些难懂的章节,大致的意思一般是很容易懂的。
研究心脑问题的哲学家和科学家,将会清楚地看到我忽略了许多他们非常感兴趣的问题。尽管这样处理过于简单化,我仍希望他们能从本书中学到些东西,即便只是在他们所知甚少的章节中,我尽量避免对事实的曲解)由于大自然的极端多样性,在生物学中做到这一点不太容易。同样我也不能完全避免观点上的曲解,意识问题是一个远未取得一致意见的研究课题,没有一些最初的偏见我们不可能得到什么结果。读者将会明白,此刻我并不热衷于功能主义和行为主义的观点,也不倾向于数学家、物理学家或哲学家的论调。也许我明天就会发现此时思考问题的错误,但今日我仍尽力而为。
现在应该从科学的角度来思考意识问题(以及它与假设上永存的灵魂的关系),而且最重要的是,现在是开始严肃而精心地设计实验来研究意识问题的时候了。这正是本书给出的启示。
以下关于本书的概述将有助于引导读者穿越脑科学的丛林。本书主要分为三个部分。第一部分由以下几章组成:
第一章 ,我开始大胆地陈述我的“惊人的假说”。它概括了我研究脑的方法。为了弄清楚我们自身,必须要知道神经细胞是如何活动的,它们又是如何进行相互作用的。接着,比较了意识和灵魂的前科学思想与宇宙的现代科学知识的不同。最后,我简要地讨论一些带有哲学味道的问题,诸如还原论、可感受性、突现行为以及世界的现实性。
第二章 略述了意识的一般性质(如一个世纪前威廉?詹姆斯(Wlllian James)和三位现代心理学家所论述的),并把它与注意机制和极短时记忆联系在一起。然后是我为解决这个问题而做出的种种假设,说明了我为什么要集中于一类特殊的意识(视觉意识),而不是其他类型的意识,如痛的意识、自我意识等等问题。
第三章 说明了为什么多数人所具有的关于如何看东西的朴素想法在很大程度上是不正确的。虽然,至今我们还不清楚当我们观看事物时,头脑中真正发生了什么,但是,至少可以大概他说出用科学的方法来研究这一问题的可能途径。第四、五章 用相当长的篇幅描述了视知觉心理学中的少数几个复杂问题。这些章节将会给读者一个印象,即什么是必须解释清楚的。
第二部分主要对大脑,特别是视觉系统,作了扼要的概述。我不想给读者过多细节的描写,只提供了关于神经系统如何组织和如何工作的一些知识。我首先在第七章 中概述了脑的解剖学,紧接着在第八章 中给出了单个神经细胞的简单描述。第九章 介绍了有关脑研究中常用的(包括细胞学和分子生物学的)实验方法。随后的两章概述了较高级灵长类视觉系统的一般性质。第十二章 说明了如何从研究大脑受到伤害的患者病例中获得有用的信息。第二大部分以第十三章 为结论,描写了各种理论模型(称为“神经网络”),它可以用来模拟由一小群类似神经元所构成的单元的行为。
前两部分为进入第三部分提供了必要的背景知识。在第三部分中论述了各种可能的研究视觉意识的实验方法。其中任何一种都还没能导致谜底的揭晓,但其中有些方法是有前途的。作为第三部分的结论,第十八章 讨论了由于我的提法而引起的一些普遍争议。最后我用关于“自由意志”的跋作为本书的结束语。
为使文章保持紧凑,我把不太重要的论据作为脚注给出,并提供了词汇表以便对正文中的科学术语加以简明扼要的解释,此外,在词汇表前,对长度、时间和频率等共同的科学单位有注记,这是因为脑活动发生的距离和时间比之日常经验中要小得多。
对于那些愿意就某些东题作深入探究的读者,我提供了进一步阅读的书目表,有的适合于外行,有的适合于专家。在多数情况下,关于它们的内容,我加上了简短的评注。正文中方括号里的上标号码,牵涉到技术性更强的参考文献,主要是发表于一些研究性的期刊上的(本书的附录部分列出了这些参考文献,译者注)。这仅仅是包含了有关文献中的极少部分,但提供了进一步具体探索的起点。我并不想把这些论文推荐给外行读者,因为多数论文写得太艰深、太枯燥了。
我要对那些指出本书不足之处的读者致以最崇高的敬意。但我对于一般性讨论缺乏热情。许多人对意识问题有其自己的想法,其中不少人觉得很有必要见诸于笔端,请原谅,我不能通读许多读者有关这一主题的所有来信。我的常规做法是,只考虑那些在有参考价值的期刊上和有信誉的出版商出版的书籍中发表的思想。否则的话,别人的叽叽喳喳的建议会使我无法有效地思考。我将继续探索这些困难的问题。希望这个前言会引起读者的一些兴趣。
本帖一共被 1 帖 引用 (帖内工具实现)
第一章 引言
问:什么是灵魂?
答:灵魂就是离开躯体但却具有理智和自由意志的活的生物体。①
――罗马天主教教义问答手册
惊人的假说是说,“你”,你的喜悦、悲伤、记忆和抱负,你的本体感觉和自由意志,实际上都只不过是一大群神经细胞及其相关分子的集体行为,正如刘易斯?卡罗尔(DewisCarroll)书中的爱丽丝(Alice)所说:“你只不过是一大群神经元②而已。”这一假说和当今大多数人的想法是如此不相容,因此,它可以真正被认为是惊人的。
在所有的民族和部落之中,人类对大自然特别是自身特性的兴趣由来已久,尽管其表现方式有所不同,这可以追溯到有历史记载的远古时代,并且肯定比这个时间还要早。这从人类广泛出现的精致的墓葬中就可作出判断。大多数宗教都认为,人死后仍存在某种形式的精神,它在一定程度上体现了人类的本质。如果失去精神,则躯体就不能正常工作,人死后灵魂会离开躯体,至于以后发生的事情,是上天国、下地狱,还是人炼狱或者转世成为驴
子或蚊虫什么的,不同的宗教则有不同的说法,并非所有的宗教在细节上都完全一致。这通常是由于它们基于不同的教义,如基督教的圣经和伊斯兰教的古兰经就形成鲜明的对比。尽管不同的宗教存在差异,但至少在一点上它们有着广泛的共识:人类确实具有灵魂,这并不仅仅是一种比喻。当今大多数人还抱有这一信念,而且在许多情况下,这一信念相当强烈和执著。
当然也有少数例外。其中之一是少数追随亚里斯多德(Aristotle)的极端的基督教徒,他们怀疑女人是否具有灵魂或具有和男人一样品质的灵魂。某些宗教很少关心死后的生活,如犹太教就是如此。动物是否具有灵魂,不同的宗教也有不同的说法。有一个老笑话说,哲学家(尽管他们也有区别)大体上可分成两类:自己养狗的确信狗有灵魂;自己没有狗的则否认灵魂的存在。
然而,今天仍有少数人(包括共产党国家的一大部分人)持有完全不同的观点。他们认为,有别于躯体且不遵从我们已知的科学规律的灵魂完全是一种神话。我们很容易理解这类神话产生的原因。的确,倘若我们不甚了解物质、辐射以及生物进化的本质,那么这种神话的出现似乎就不足为奇了。
那么,灵魂这一基本概念为什么应当被怀疑呢?当然,如果绝大多数人都相信灵魂,在表面看来,这本身也是灵魂存在的证据。不过,4千年前,几乎每个人都相信地球是平的。现在,这一观点已发生了根本变化,其主要原因是现代科学的进步。按照我们今天的标准,地球是个很小的地方,但在当时却认为很大,尽管还不知道它的确切尺寸。我们今天的大多数宗教信仰就起源于那个时代。任何一个人的直接知识仅仅来源于地球的一个小小的部分。因而,当时人们有理由认为,地球是宇宙的中心,而人类处于宇宙的领导地位,随着时间的消逝,地球的起源渐渐被人们遗忘。而当时认为的地球的时间跨度,尽管与人的经历相比显得很长,但在今天看来仍然短得可笑。那时人们相信,地球的寿命少于1万年,这是不难理解的。现在我们已经知道,它的真正年龄是46亿年。在当时看来,星星似乎离我们很远,大概固定在球形的太空。而宇宙可延伸到无限远(大于100亿光年),这在当时简直是不可想像的事情(某些东方宗教,如印度教,则是例外。他们把夸大时间和距离纯粹作为一种乐趣)。
在伽利略(Gali1eo)和牛顿(Newton)之前,我们的基础物理学知识还是很原始的。太阳和行星被认为是以某种非常复杂的方式有规律地运动着。因而他们有理由相信,只有天使才能引导它们。还有什么别的力量能使它们的行为如此规律呢?甚至到了16、17世纪,我们对化学的理解大部分还是不正确的。事实上,直至本世纪初,还有某些物理学家怀疑原子是否存在。
今天,我们已经知道了很多有关原子的特性,并赋予每种元素一个原子序数。我们已经详细地了解到它们的结构以及控制它们行为的大部分规律。物理学已经为化学提供了理论框架。我们的有机化学知识与日俱增。
我们承认,在很短的距离(在原子核内)、极高的能量及极大的引力场中发生的事情我们还不能真正理解。但是大多数科学家认为,对于地球上我们通常所处的条件(只有在非常特殊的情况下,一种原子才转变为另外一个原子),我们知识上的这种不完备性,对理解思维和脑影响不大。
除了基本的化学和物理学知识之外,地球科学(如地理学)和天文科学(天文学和宇宙学)已经为我们生存的世界和宇宙描绘了一幅与传统宗教建立时的基本观念遇然不同的图画。宇宙的现代图景及其发展规律,构成了目前生物学知识的基本背景。在过去的一个半世纪的历程中,这些知识发生了根本性变化。直到达尔文(Darwin)和华莱士(Wallace)各自独立地发现了导致生物进化(自然选择过程)的基本机制之前,“造物的论点”(Argumentfrom Desgn)似乎仍然是不可辩驳的。像人体这样结构复杂和设计精巧的有机体的产生,不借助至灵至慧的造物主的设计怎么可能呢?今天,这一论点已经完全过时了。我们知道,一切生命,从细菌到我们人类自己,都是与生物化学水平的活动紧密相关的。地球上的生命已经存在了数十亿年,这期间许多种类的动物和植物都已经发生了变化,而且往往是根本性的变化。恐龙已经灭绝,在它们生活的地方,出现了很多新的哺乳动物。今天,无论是在野外还是在实验室内,我们都可以观察到基本的进化过程。
在本世纪,生物学有了突飞猛进的发展。对基因的分子基础及其精确的复制过程,对蛋白质及其合成机制的详细知识,都有了更深入的了解,现在我们已经知道,蛋白质具有很强的功能,其用途也非常广泛,它能构成精巧的生化装置的基础。胚胎学(目前经常被称为发育生物学)是当前研究的重点。一个海胆的受精卵经过多次分裂,最终会变成一个成熟的海胆,但是,如果把受精卵第一次分裂后的两个子细胞分开,那么每个子细胞就会各自发育成一个独立的、但却更小的海胆。类似的实验也可以在蛙卵上完成。经过分子自身的重新组织,从本来应该产生一个动物的物质中产生出两个小动物,这一现象在100年前发现时,曾被认为是某种超自然的生命力(Life Force)作用的结果。根据生化基础,用有机分子和其他分子的特性及其相互作用去解释生物的戏剧性复制,似乎是不可想像的事情。现在,对这一过程的发生机制,在原理上我们感到已经没有什么困难了。我们曾料想这种解释是很复杂的。科学史上充斥着一些观点,认为有的东西在本质上就是不可理解的(如“我们永远不会知道星星是由什么形成的”),在大多数情况下,时间将会说明,这些预言是不正确的。
一个现代的神经生物学家,无须借助灵魂这个宗教概念去解释人类和其他动物的行为。这使人想起当年拉普拉斯(Laplace)解释太阳系的运动规律时,拿破仑(Napleon)曾经提出的问题:“那么,上帝如何发挥作用呢?”拉普拉斯回答:“陛下,我不需要这一假设。”并非所有的神经科学家都相信灵魂是一个神话,约翰?埃克尔斯爵士(sir JohnEccles)就是一个明显的例外,但大多数科学家确实认为灵魂是神话。这并非是由于他们能证明灵魂这一概念是虚假的,而是他们目前并不需要这一假设。从人类历史发展的角度看,脑研究的主要目标不仅仅是理解和治疗各种各样的脑疾病(尽管这是很重要的),更主要的是掌握人类灵魂的真正本质。不管灵魂这个术语是比喻性的或是确实存在,它恰恰是我们正在试图研究的东西。
许多受过教育的人,特别是在西方世界,也都相信灵魂仅是一种比喻。一个人在被孕育之前和死后是不会存在个人生命的,他们也许会把自己称为无神论者、不可知论者、人文主义者,或是离经叛道的信徒,但他们都否认传统宗教的主要观点。然而,这并不意味着他们通常考虑自己时与传统的方式完全不同,因为旧的思维习惯是很难消逝的。一个人也许在宗教意义上并不是一个信徒,但在心理上也许会继续像信徒那样思考问题,至少在日常生活中是如此。
因此,我们需要使用更鲜明的术语来表述我们的想法,科学的信念就是,我们的精神(大脑的行为)可以通过神经细胞(和其他细胞)及其相关分子的行为加以解释。①对大多数人而言,这实在是一个惊人的概念,很难使人相信,我们自己仅是一群神经细胞的精细行为,即便这种细胞是大量的,它们的相互作用是极其复杂的,读者不妨想像一下这一观点。(“无论他说些什么,梅布尔,我知道我正在某处看世界。”)
为什么惊人的假说如此令人吃惊呢?我认为主要有三个原因,首先是许多人还不愿意接受被称作“还原论”的研究方法,即复杂系统可以通过它各个部分的行为及其相互作用加以解释。对于一个具有多种活动层次的系统,这一还原过程将不止一次地加以重复。也就是说,某一特定部分的行为可能需要用它的各个组成部分及其相互作用的特性加以解释。例如,为了理解大脑,我们需要知道神经细胞的各种相互作用,而且每个细胞的行为又需要用组成它的离于和分子的行为来解释。
这种过程在哪里终止呢?幸运的是,存在一个自然的中断点。这发生在(化学)原子的水平。每个原子有一个携带正电荷的重原子核,它被一个有组织的电子云所包围。这些电子既轻又灵活,而且携带负电荷。每个原子的化学性质几乎完全由核电荷确定。核的其他性质,如质量数及偶极矩、四极矩强度等次级电学性质,在大多数情况下,对它的化学性质影响很小。
大体上说来,原子核的质量数和电荷数不会发生变化,至少在生命赖以生存的温度和环境中如此。在此情况下,原子核的亚结构知识对研究化学是不必要的。原子核由各种质子和中子组成与质子和中子由夸克组成没有区别。为了解释大多数化学事实,所有的化学家都需要知道原子的核电菏数,为此,我们需要懂得一种料想不到的力学类型――量子力学,它控制微小粒子特别是电子的行为。实际上,由于计算很快就变得极端复杂,因此,人们主要是应用各种粗略的“拇指规则”(rules-of-thumb),以便用量子力学术语进行合理的解释。在这一水平以下,我们无需去冒险。(1)
至今仍有许多人企图说明还原论是行不通的。他们通常光是采用相当正式的定义形式,进而说明这种类型的还原论是不真实的。他们忽略的一点是,还原论并非是用一组低层次上的、固定的思想去解释另一组高层次的、固定的思想。它并不是一种一成不变的过程,而是一个动态的相互作用过程。它随着知识的发展,不断修改两个层次已有的观念。“还原论”毕竟是推动物理学、化学和分子生物学发展的主要理论方法。它在很大程度上推动了现代科学的蓬勃发展。除非遇到强有力的实验证据,需要我们改变态度,否则,继续运用还原论就是唯一合理的方法。反对还原论的泛泛的哲学争论是我们不希望看到的。
另外一个有些人喜欢的哲学论点是“还原论”中包含了“分类错误”,例如:本世纪20年代他们说,把基因视为一种分子(现在我们应该说是配对分子中的一部分)是一种分类上的错误,基因是一回事,分子则是另外一回事,现在看来,这种反对意见是十分空洞的。②分类对于我们来说并非是绝对的,只是人们的一种规定而已。历史告诉我们,某种听起来很合理的分类,有时也可能是错误的和会使人发生误解的,回想一下古代和中世纪医学上有关人体四种体液的分类(血液、粘液、黄胆汁和黑胆汁),我们就清楚了。
惊人的假说使人感到奇怪的另一个原因,是意识的本质。比如说,我们有一幅外部世界的生动的内部图画:,如果把它仅仅看成是神经元行为的另外一种描述方式,这看来也是一种分类错误。但是我们已经看到,这种论点并不总是可信的。
哲学家特别关心可感受特性问题,如怎样解释红的程度和痛的程度。这是一个非常棘手的问题,它来自这样一个事实:不管我们自己感受到的红色多么鲜明,都无法与其他人进行准确的交流,至少在通常情况下是这样。倘若你不能以确定的方式描述一个物体的特性,那么当你使用还原论的术语解释这些特性时,就可能遇到某些困难。当然这并不是说,在适当的时候无法向你解释清你看红色时的神经相关物。换句话说,我们有可能说,只有你头脑中一走的神经元和(或)分子以确定的方式活动时,你才能感受到红色。这也许说明了,为什么你能体验到鲜明的颜色感觉。为何某种神经行为必定使你看到红色,而另一种使你看到蓝色,而不是相反的情况。
即使得出结论说,我们不能解释红色的程度(因为你无法将你的红色感觉准确地告诉我),这也并不意味着,你我看到的红色是不同的。如果我们知道,你我大脑中的红色神经相关物严格相同,我们就可以作出科学推论,你我在观看红色时具有同样的感受。问题在于“严格”一词。我们能有的精确程度,取决于我们对该过程的详尽知识。如果红色的神经相关物主要依赖于我过去的经历,而你我的经历义大不相同,那么我们就不能推断出你我看到的红色完全相同。
因此,可能有人做出结论,要想了解各种不同形式的意识(consciousness),我们首先就需要知道它们的神经相关物。
惊人的假说让人感到奇怪的第三个原因,是我们无法否认意志(Will)是自由的这种感觉。两个相应的问题立刻就会产生:我们能够发现表现为自由意志的事件的神经相关物吗、我们的意志并不仅仅表现为自由的吗?我相信,只要我们首先解决了意识问题(problem ofawareness or consciousness),①再解释自由意志就会比较容易了。(该问题将在附录中用较长篇幅加以讨论。)
这一超常的神经机器(machine)是怎样产生的呢?要理解大脑,非常重要的一点就是要懂得,大脑是在长期的进化过程中自然选择的最终产物,大脑并非由工程师设计的,但它却能在狭小的空间内靠消耗微不足道的能量来完成十分巧妙的工作。由双亲遗传给我们的基因经历了千百万年的进化,它受到我们远古祖先生活经历的深刻影响。这些基因以及在出生前由其引导的发育过程决定了大脑各部位的基本结构。我们已经知道,出生时的大脑并非自纸一张,而是一个复杂的结构,它的很多部分已经各就各位。经验将会不断调节这一大体确定的装置,直到它能完成精细的工作。
进化并非是一个彻底的设计者。确实,正如法国分子生物学家雅克布(FranccoisJacob)所说:“进化是一个修补匠。”它主要通过一系列较小的步骤,根据从前已有的结构去构造。进化又是机会主义的。只要某一新装置可以工作,即使工作方式很奇特,进化也会采用它。这就意味着,最有可能被进化选上的,是那些较容易地叠加到已有结构上的改变和改进。它的最终设计不会很彻底,而是一群相互作用的小配件的零散累加。令人奇怪的是,这种系统比直接针对某项任务设计的机器往往工作得更好。
成熟的大脑是自然和培育的共同产物。从语言方面就很容易认识到这一点。只有人类才具备流利地使用复杂语言的能力,而与我们有着最近亲缘关系的类人猿,即使经过长期的训练,它的语言也是很贫乏的。而且我们学得的实际语言也在很大程度上依赖
于我们成长的环境和生活方式。
还需要说明两个更具哲学意味的观点。首先,大脑的许多行为是“突现”的,即这种行为并不存在于像一个个神经元那样的各个部分之中。仅仅每个神经元的活动是说明不了什么问题的。只有很多神经元的复杂相互作用才能完成如此神奇的工作。
突现(emergent)一词具有双重含义,首先它具有神秘的色彩。这就意味着,突现行为无论如何(哪怕在原理上)也不能理解为各个分离部分的组合行为,我发现很难说明这种想法指的是什么。突现的科学含义(或者说至少我是这样使用的)是指如下假设,即使整体行为不等同于每一部分的简单叠加,但这种行为至少在原理上可以根据每一部分的本性和行为外加这些部分之间如何相互作用的知识去理解。
一个简单的例子就是基础化学中的有机化合物,比如苯,苯分子由对称地排列在一个环上的六个碳原子和环的外侧与每个碳原子相连的氢原子组成。除了质量之外,苯分子的其他特性并非都是十二个原子的简单叠加。然而,只要了解各部分的相互作用机制,其化学反应和光谱吸收等特性都可以计算出来。当然,这需要量子力学告诉我们如何去做。奇怪的是,并没有人会从“苯分子大于其各部分的总和”的说法中获得神秘的满足感。然而却有很多人津津乐道于用这样的方式谈论大脑。大脑如此复杂而又因人而异,因此,我们也许永远得不到某个特定大脑如何工作的详细知识。但我们至少有希望了解,大脑如何通过很多部分的相互作用产生复杂的感觉和行为的普遍原理。
当然,也许还有某些重要的过程尚未发现。但我怀疑,即使我们已经知道大脑某个部分的确切行为,在某些情况下,我们也无法立刻了解对它的解释。因为其中可能包含了许多尚未阐明的新的概念和想法。但是我们并不像某些悲观主义者那样,认为我们的大脑生来就不能理解这些想法。如果这些困难确实存在,当我遇到它们时,我宁愿正视它们。我们具有高度进化和发达的大脑,它使我们能够顺利地处理与日常生活紧密关联的很多概念,无论如何,受过训练的大脑能够把握许多超越我们日常经验的现象,比如相对论和量子力学,这些思想是违反直觉的,但长期的实践能使受过训练的大脑正确地理解和熟练地处理这些现象。有关我们大脑的想法很可能具有同样的基本特点。初看起来它们似乎很陌生,但经过实践我们也许能满怀信心地操纵它们。
无论是大脑的各个组成部分,还是它们之间的相互作用,都没有明显的理由说明,我们无法获得这些知识。只是由于所涉及过程的极端复杂性和多样性,我们的进展才如此缓慢。
第二个需要澄清的哲学难题涉及外部世界的真实性。我们大脑的进化结果主要适宜处理我们自身以及与周围世界的相互作用。但这一世界是真实的吗?这是一个由来已久的哲学问题,在这里,我们不想被卷人由此引发的喋喋不休的争论之中。我只想陈述一下我自己的研究假设:确实存在一个外部世界,它大体上不依赖于我们对它的观察。我们也许永远不能全面了解这个外部世界,但我们能够通过我们的感觉和大脑的操作获得外部世界某些方面的近似信息。如我们将在下文中看到的那样,我们不可能意识到我们头脑中所发生的一切,我们只能意识到大脑活动的某些方面。此外,无论是对外部世界本质的解释还是对我们自身内省的解释,这些过程都可能出现错误,我们可能以为,我们知道自己某项活动的动机,但至少在某些情况下很容易说明,我们实际上是在欺骗自己。
_===================================
①当我的妻子奥黛尔(Odile)还是一个小姑娘时,一位年长的爱尔兰女子给她上宗教教义课。该老师常把“being”(生物)念成“be-in”。奥黛尔把它听成了“bean”(蚕豆)。她对灵魂是脱离躯体的活蚕豆(living bean)的想法着实感到迷惑不解。但她只是把困惑埋在心头,并没有和别人讲。
②“神经元”(neunron)是神经细胞(nerve cell)的科学术语。
①这个想法并不新奇,在霍勒斯.巴洛(Horace Barlow)的著名论文中就有特别明确的表述。
(1)主要的例外是放射性:一个原子变为另一个原子的罕见情况,这在星星、原子反应堆、原子弹、辐射矿的原子(这很少被注意)以及在实验室特殊设计的实验中会发生。辐射可以产生DNA(遗传物质)突变,因而不能完全忽略,但它不大可能是我们大脑行为的重要的基本过程。
②加拿大哲学家保罗和帕待丽夏?丘奇兰德(Paul and Patricia Churchland,现在加利福尼亚州大学圣迭戈分校)已经非常圆满地回答了那些反对还原论的观点。参见有关参考文献和阅读材料。
①我有时交替使用Awareness和Consciousness两个术语。对于Consciousness的某些特殊方面,我更倾向了使用Awareness(如Visual Awareness)。某些哲学家认为这两个词具有严格的区别,但对如何区分却没有一致的看法,我承认,在日常谈话中,当我想使人有些吃惊时,我用“Consciousness”,否则,就用“Awareness”。
第二章 意识的本质
“在任何一个领域内发现最神奇的东西,然后去研究它。”
――惠勒(John Archibald Wheeler)
要研究意识问题,首先就要知道哪些东西需要我们去解释。当然,我们大体上都知道什么是意识。但遗憾的是,仅仅如此是不够的。心理学家常向我们表明,有关心理活动的常识可能把我们引入歧途,显然,第一步就是要弄清楚多年来心理学家所认定的意识的本质特征。当然,他们的观点未必完全正确,但至少他们对此问题的某些想法将为我们提供一个出发点。
既然意识问题是如此重要和神秘,人们自然会期望,心理学家和神经科学家就应该把主要精力花在研究意识上。但事实远非如此。大多数现代心理学家都回避提及这一问题,尽管他们的许多研究都涉及意识。而大多数现代神经科学家则完全忽略这一问题。
情况也并非总是这样。大约在19世纪后期,当心理学开始成为一门实验科学的时候,就有许多人对意识问题怀有极大的兴趣。尽管这个词的确切含义当时还不太清楚。那时研究意识的主要方法就是进行详细的、系统的内省,尤其是在德国。人们希望,在内省成为一项可靠的技术之前,通过对它的精心改进而使心理学变得更加科学。
美国心理学家威廉?詹姆斯(William James)(与小说家亨利?詹姆斯是兄弟)较详尽地讨论了意识问题,在他1890年首次出版的巨著《心理学原理》一书中,他描述了被他称为“思想”(thought)的五种特性。他写道,每一个思想都是个人意识的一部分。思想总是在变化之中,在感觉上是连续的,并且似乎可以处理与自身无关的问题。另外思想可以集中到某些物体而移开其他物体。换句话说,它涉及注意。关于注意,他写下了这样一段经常被人引用的话:“每个人都知道注意是什么,它以清晰和鲜明的方式,利用意向从若干个同时可能出现的物体或一系列思想中选取其中的一个……这意味着舍掉某些东西以便更有效地处理另外一些。”
在19世纪,我们还可以发现意识与记忆紧密联系的想法;詹姆斯曾引用法国人查尔斯?理迟特(Charles Richet)1884年的一段话:“片刻的苦痛微不足道,对我而言,我宁愿忍受疼痛,哪怕它是剧烈的,只要它持续的时间很短,而且,在疼痛过去之后,永远不再出现并永远从记忆中消失。”
并非脑的全部操作都是有意识的。许多心理学家相信,存在某些下意识或潜意识的过程。例如,19世纪德国物理学家和生理学家赫尔曼?冯?亥姆霍兹(Hermann vonHelmholtZ)在谈到知觉时就经常使用“无意识推论”这种术语,他想借此说明,在逻辑结构上,知觉与通常推论所表达的含义类似,但基本上又是无意识的。
20世纪初期,前意识和无意识的概念变得非常流行,特别是在文学界。这主要是因为弗洛伊德(Freud)、荣格(Jung)及其合作者给文学赋予了某种性的情趣。按现代的标准看,弗洛伊德不能算作科学家,而应该被视为既有许多新思想、又有许多优秀著作的医生。正因为如此,他成为精神分析学派的奠基人。
早在一百年前,三个基本的观点就已经盛行:
1.并非大脑的全部操作都与意识有关。
2.意识涉及某种形式的记忆,可能是汲短时的记忆。
3.意识与注意有密切的关系。
但不幸的是,在心理学研究中兴起了一场运动,它否定意识的应用价值,把它看成是一个纯心理学概念,这部分原因是由于涉及内省的实验不再是研究的主流,另一方面,人们希望通过研究行为,特别是动物的行为,使心理学研究更具科学性。因为,对实验者而言,行为实验具有确定的观察结果。这就是行为主义运动,它回避谈论精神事件。一切行为都必须用刺激和反应去解释。
约翰。沃森(John B.Watson)等人在第一次世界大战前发起的这场行为主义运动,在美国盛行一时,并且由于以斯金纳(B.F.Skinner)为代表的许多著名鼓吹者的影响,该运动在三四十年代达到顶峰。尽管在欧洲还存在以格式塔(Gestalt)为代表的心理学派,但至少在美国,直至50年代后期和60年代认知心理学成为受科学界尊重的学科之前,心理学家从不谈论精神事件。在此之后,才有可能去研究视觉意象,并且在原来用于描述数字计算机行为的概念基础之上,提出各种精神过程的心理学模型。即便如此,意识还是很少被人提及,也很少有人去尝试区分脑内的有意识和无意识活动。
神经科学家在研究实验动物的大脑时也是如此,神经解剖学几乎都是研究死亡后的动物(包括人类),而神经生理学家大都只研究麻醉后丧失意识的动物,此时受试对象已不可能具有任何痛苦的感觉了。特别是本世纪50年代后期,戴维?休伯(David Hube1)和托斯滕?威塞尔(Torsten Wiesel)作出划时代的发现以后,情况更是如此。他们曾发现,麻醉后的猫大脑视皮层上的神经细胞,对人射到其眼内的光照模式呈现一系列有趣的反应特性。尽管脑电波显示,此时猫处于睡眠而非清醒的状态。由于这一发现及其后的工作,他们获得了1981年诺贝尔奖。
要研究清醒状态下动物脑神经反应的特性,是一件更加困难的事情(此时不仅需要约束头部运动,还要禁止眼动或详细记录眼动)。因此,很少有人做比较同一个大脑细胞在清醒和睡眠两种状态下,对同一视觉信号的反应特性的实验,传统的神经科学家回避意识问题,这不仅仅是因为实验上的困难,还因为他们认为这一问题太具哲学味道,很难通过实验加以观测。一个神经科学家要想专门去研究意识问题,很难获得资助。
生理学家们至今还不大关心意识问题,但在近几年,某些心理学家开始涉及这一问题,我将简述一下他们中的三个人的观点。他们的共同点,就是忽视神经细胞或者说对它们缺少兴趣。相反,他们主要想用标准的心理学方法对理解意识作出贡献。他们把大脑视为一个不透明的“黑箱”,我们只知道它的各种输入(如感觉输入)所产生的输出(它产生的行为)。他们根据对精神的常识性了解和某些一般性概念建立模型。该模型使用工程和计算术语表达精神。上述三个作者也许会标榜自己是认知科学家。
现任普林斯顿大学心理系教授的菲力普?约翰逊-莱尔德(Philip Johnson-Laird)是一位杰出的英国认知心理学家。他主要的兴趣是研究语言,特别是字、语句和段落的意义。这是仅人类才有的问题,莱尔德不大注意大脑是不足为奇的。因为我们有关灵长类大脑的主要信息是从猴子身上获得的,而它们并没有真正的语言,他的两部著作《心理模型》(Mental Models)和《计算机与思维》(The COmputer and the 肋Mind)着眼点是放在怎样描述精神的问题(大脑的活动)以及现代计算机与这一描述的关系。他强调指出,大脑具有高度并行的机制(即数以万计的过程可以同时进行),但它做的多数工作我们是意识不到的。①
约翰逊-莱尔德确信,任何一台计算机,特别是高度并行的计算机,必须有一个操作系统用以控制(即使不是彻底的控制)其余部分的工作,他认为,操作系统的工作与位于脑的高级部位的意识之间存在着紧密的联系。
布兰迪斯大学(Brandeis University)语言学和认知学教授雷?杰肯道夫(RavJackendoff)是一位著名的美国认知科学家。他对语言和音乐具有特殊的兴趣。与大多数认知科学家类似,他认为最好把脑视为一个信息加工系统。但与大多数科学家不同的是,他把“意识是怎样产生的”看作是心理学的一个最基本的问题。
他的意识的中间层次理论(Intermediate-Level Theory of Consciousness)认为,意识既不是来自未经加工的知觉单元,也不是来自高层的思想,而是来自介于最低的周边(类似于感觉)和最高的中枢(类似于思想)之间的一种表达层次。他恰当地突出了这个十分新颖的观点。
与约翰逊-莱尔德类似,杰肯道夫在很大程度上也受到脑和现代计算机之间类比的影响。他指出,这种类比可以带来某些直接的好处,比如,计算机中存储了大量信息,但在某一时刻,只有一小部分信息处于活动状态。大脑中亦是如此、
然而,并非大脑的全部活动都是有意识的。因此,他不仅仅在脑和思维之间,而且在脑(计算思维)与所谓的“现象学思维”(大体指我们所能意识到的)之间作了严格的区分。他同意莱尔德的观点,我们意识到的只是计算的结果,而非计算本身。①
他还认为,意识与短时记忆之间存在紧密的联系。他所说的“意识需要短时记忆的内容来支持”这句话就表达了这样一种观点。但还应补充的是,短时记忆涉及快速过程,而慢变化过程没有直接的现象学效应。
谈到注意时他认为,注意的计算效果就是使被注意的材料经历更加深入和细致的加工。他认为这样就可以解释为何注意容量如此有限。
杰肯道夫与约翰逊-莱尔德都是功能主义者。正如在编写计算机程序时并不需要了解计算机的实际布线情况一样,功能主义者在研究大脑的信息加工和大脑对这些信息执行的计算过程时,并没有考虑到这些过程的神经生物学实现机制。他们认为,这种考虑是无关紧要的,至少目前为时过早。①
然而,在试图揭示像大脑这样一个极端复杂的装置的工作方式时,这种态度并没有什么好处。为什么不打开黑箱去观察其中各单元的行为呢?处理一个复杂问题时,把一只手捆在背后是不明智的。一旦我们了解了大脑工作的某些细节,功能主义者关心的高层次描述就会成为考虑大脑整体行为的有用方法。这种想法的正确性可以用由低水平的细胞和分子所获得的详细资料精确地加以检验。高水平的尝试性描述应当被看作是帮助我们阐明大脑的复杂操作的初步向导。
加利福尼亚州伯克利的赖特研究所的伯纳德?巴尔斯(BernardJ.Baars)教授写了《意识的认知理论》一书,虽然巴尔斯也是一位认知科学家,但与杰肯道夫或约翰逊-莱尔德相比,他更关心人的大脑。
他把自己的基本思想称为全局工作空间(GlObal Workspace)。他认为,在任一时刻存在于这一工作空间内的信息都是意识的内容。作为中央信息交换的工作空间,它与许多无意识的接收处理器相联系。这些专门的处理器只在自己的领域之内具有高效率。此外,它们还可以通过协作和竞争获得工作空间。巴尔斯以若干种方式改进了这一模型。例如,接收处理器可以通过相互作用减小不确定性,直到它们符合一个唯一有效的解释。(l)
广义上讲,他认为意识是极为活跃的,而且注意控制机制可进入意识。我们意识到的是短时记忆的某些项目而非全部。
这三位认知理论家对意识的属性大致达成了三点共识。他们都同意并非大脑的全部活动都直接与意识有关,而且意识是一个主动的过程;他们都认为意识过程有注意和某种形式的短时记忆参与;他们大概也同意,意识中的信息既能够进入到长时情景记忆(long-termepisodic memory)中,也能进入运动神经系统(motor system)的高层计划水平,以便控制随意运动。除此之外,他们的想法存在着这样那样的分歧。
让我们把这三点想法铭记在心,并将它们与我们日益增长的脑内神经细胞的结构和活动的知识结合起来,看看这样的研究方法能够得到什么结果。
我自己的大多数想法是在与我的年轻同事加州理工学院计算与神经系统副教授克里斯托弗?科赫(Christof Koch)的合作研究中形成的。科赫与我相识于80年代初,当时他还是托马索?波吉奥(Tomaso Poggio)在蒂宾根(Tubingen,德国城市)的研究生。我们的探索在本质上是科学的。②我们认为,泛泛的哲学争论无助于解决意识问题。真正需要的是提出有希望解决这些问题的新的实验方法。为了做到这一点,我们还需要一个尝试性的思想体系,它随着我们工作的进展不断加以改进和扬弃。一个科学方法的特点应是不试图建立包罗万象的理论,从而一下子解释意识问题的所有方面。也不能把研究的重点放在语言上,因为只有人类才有语言。而是应选择在当时看来对研究意识最有利的系统,并从尽可能多的方面加以研究,正如在战争中,通常并不采取全面进攻,而是往往找出最薄弱的一点,集中力量加以突破。
我们作出了两条基本假设。第一条就是我们需要对某件事情作出科学解释。尽管对哪些过程能够意识到还可能有争议,但大家基本同意的是,人们不能意识到头脑中发生的全部过程。当你意识到许多知觉和记忆过程的结果时,你对产生该意识的过程可能了解很有限。(比如,“我如何想起了我祖父的名字呢?”)实际上,某些心理学家已经暗示,即使对较高级的认知过程的起源,你也只有很有限的内省能力。在任一时刻,可能都有某些活跃的神经过程与意识有关,而另一些过程与意识无关。它们之间的差别是什么呢?
我们的第二条假设是尝试性的:意识的所有不同方面,如痛觉和视觉意识(visualawareness),都使用一个基本的共同机制或者也许几个这样的机制。如果我们能够了解其中某一方面的机制,我们就有希望借此了解其他所有方面的机制。自相矛盾的是,意识似乎如此古怪,初看起来又是如此费解,只有某种相当特殊的解释才有可能行得通。意识的一般本质也许比一些较常见的操作更容易被发现。像脑如何处理三维信息,在原则上可以用很多不同的方法去解释。这一点是否正确还有待于进一步观察。
克里斯托弗和我认为,某些问题可以暂且放在一边或者只是无保留地陈述一遍,根本无需进一步讨论。因为,经验告诉我们,如果不是这样的话,很多宝贵的时间就会耗费在无休止的争论上。
1.关于什么是意识,每个人都有一个粗略的想法。因此,最好先不要给它下精确的定义,因为过早下定义是危险的,在对这一问题有较深入的了解之前,任何正式的定义都有可能引起误解或过分的限制:①
2.详细争论什么是意识还为时过早,尽管这种探讨可能有助于理解意识的属性。当我们对某种事物的定义还含糊不清时,过多地考虑该事物的功能毕竟是令人奇怪的。众所周知,没有意识你就只能处理一些熟悉的日常情况,或者只能对新环境下非常有限的信息作出反应。
3.某些种类的动物,特别是高等哺乳动物可能具有意识的某些(而不需要全部)重要特征。因此,用这些动物进行的适当的实验有助于揭示意识的内在机制。因此,语言系统(人类具有的那种类型)对意识来说不是本质的东西,也就是说,没有语言仍然可以具有意识的关键特征。当然,这并不是说语言对丰富意识没有重要作用。
4.在现阶段,争论某些低等动物如章鱼、果蝇或线虫等是否具有意识是无益的。因为意识可能与神经系统的复杂程度有关。当我们不论在原理上和细节上都清楚地了解了人类的意识时,这才是我们考虑非常低等动物的意识问题的时候。
出于同样原因,我们也不会提出,我们自身的神经系统的某些部分是否具有它们特殊的、孤立的意识这样的问题。如果你偏要说:“我的脊髓当然有意识,只不过是它没有告诉我而已。”那么,在现阶段,我不会花时间与你争论这一问题。
5.意识具有多种形式,比如与看、思考、情绪、疼痛等相联系的意识形式。自我意识,即与自身有关的意识,可能是意识的一种特殊情况。按照我们的观点,姑且还是先将它放在一边为好。某些相当异常的状态,如催眠、白日梦、梦游等,由于它们没有能给实验带来好处的特殊特征,我们在此也不予考虑。(1)如果这看来像是唬人的话,你不妨给我定义一下基因(gene)这个词,尽管我们对
基因已经了解许多,但任何一个简单的定义很可能都是不充分的,可想而知,当我
们对某一问题知之甚少时,去定义一个牛物学术语是多么困难。
我们怎样才能科学地研究意识呢?意识具有多种形式。正如我们已经解释过的,初始的科学探索通常把精力集中到看来最容易研究的形式。科赫和我之所以选择视觉意识而不是痛觉意识或自我感受等其他的什么形式,就是因为人类很大程度上依赖于视觉。而且,视觉意识具有特别生动和丰富的信息。此外,它的输入高度结构化,也易于控制。正是由于这些原因,许多实验工作己围绕它展开。
视觉系统还有另外的优点。由于伦理学上的原因,很多实验不能在人身上进行,但是可以在动物身上进行(这将在第九章 进行充分讨论),幸运的是,高等灵长类动物的视觉系统似乎与人类有某些相似之处。许多视觉实验已经在诸如恒河猴等灵长类动物身上完成了。倘若我们选择语言系统去研究,我们就不会有合适的实验动物。
由于我们对灵长类大脑的视觉系统具有的详尽知识(这将在第十、十一章 进行充分讨论),因而我们知道大脑的各个视觉部分是如何分解视野的图像的。但我们还不清楚,大脑是怎样把它们整合在一起,以形成像我们看到的那样的、高度组织化的外部世界的景观。看来,大脑就如同把某种整体的统一性叠加到了各视觉部分的神经活动之中。这样,某一物体的各个属性(形状、颜色、运动、位置等)就可以组装在一起,不至于与视野中的其他物体发生混淆。
这一全局过程所需要的机制,可以用“注意”很好地去描述,并且还涉及某种形式的短时记忆。有人已提出建议,这种全局的统一性,可以用有关神经元的相关发放进行表达。粗略他讲,这意味着对某个物体特性进行响应的神经元趋于同步发放,而对其他物体响应的神经元的发放则与这一相关发放集并不同步(这将在第十四、十七章 进行充分讨论),为了探索这一问题,我们需要先对视觉心理学有一些了解。
==================================
①约翰逊-莱尔德尤其对自我反应和自我意识感兴趣。出于策略上的考虑,这些问题先放在一边。
①杰肯道夫用自己的行后表达这一点。他把我称为“结果”的东西叫做“信息结构”。
①遗传学也关心各代之间和个体内部的信息传递。但真正的突破是在DNA结构把该习语所表达的信息显示得一清二楚之后。
①我不想赘述巴尔斯模型的所有复杂性。为了解释意识问题的各个方面,如自我意识、自我监控以及其他一些心理活动,如无意识的断章取义、意志、催眠等,他的模型附加了许多复杂性。
②下文我将广泛引述科赫和我在1990年在《神经科学研讨》(Seminars in the Neurosciences,SIN)杂志上发表的一篇关于该问题的文章中的思想。
第三章 看(Seeing)
“眼见为实”。
在餐桌上,有些并非从事科学研究的人常常问我目前正在研究什么,当我回答说,我正在思考哺乳动物视觉系统的某些问题即我们如何看东西时,他们往往会表现出令人有些窘迫的沉默。提问者往往迷惑不解,为什么像看东西这么简单的事情还会有困难。当我们睁开眼睛时,毕竟不费吹灰之力就可以看到一个开阔清晰、充满五颜六色物体的世界。一切都显得轻松自如,因此还有什么问题可言呢?当然,如果我现在潜心钻研的是数学、化学甚至经济学这些需要花费脑力的问题,也许还有值得谈论的东西。然而,看……?
另外,很多人认为,既然他们的大脑工作得很好,于嘛还要自寻麻烦呢?他们认为,与脑有关的主要问题是当它出了毛病的时候我们如何去治疗。只有少数有科学头脑的人才会进一步追问:当我们看某个物体时,大脑究竟是如何工作的呢?
我们现有的视觉系统知识,有两方面是相当令人吃惊的,第一方面,我们已经具备的知识量,无论用什么标准衡量都是庞大的,学校设有齐全的视觉心理学(如:在什么条件下电影屏幕上快速连续呈现的静止图像能够产生平滑的运动)、视觉生理学(眼睛及相关脑区的结构和行为)和视觉分子及细胞生物学(神经细胞及其组成分子)课程。这些知识是众多从事人类和动物研究的实验家和理论家经过多年艰辛努力积累的结果。
另一个惊人之处是,尽管已经有了这些工作,但对如何看东西我们确实还没有清楚的想法。对那些进修这些课程的学生,往往隐瞒了这一事实。当然,如果经过所有这些认真的研究和详尽的讨论之后,我们对视觉过程仍然缺乏清晰、科学的了解,那可能就是不应该的了。按照严格的科学(如:物理学、化学、分子生物学)标准,我们对于大脑如何产生生动的视觉意识甚至还缺少大体的了解,我们只是把它看成是理所当然的事情。我们知道该过程的某些零散的片段,但我们还缺乏详尽的资料和想法来回答某些最简单的问题:我们怎样看颜色?当我回忆一张熟悉面孔的图像时,发生了什么事情?等等。
但是还有第三件令人奇怪的事情。你可能对自己如何看东西已经有了一个粗略的想法。你认为,每只眼睛就像一部微型电视摄像机,利用角膜透镜把外界景象聚焦到眼后一个特殊的视网膜屏幕上。每个视网膜有数以百万计的“光感受器”,对进人眼睛的光子进行响应。然后,你把由双眼进入大脑的图像整合到一起,这样,就可以看东西了。在没有考虑这些问题之前,你也许对可能的发生过程有了某些想法。但是,也许让你惊讶的是,即使科学家还不知道我们怎样看东西,但却容易说明,你把如何看东西想得太简单了,在很多情况下或者说是完全错了。
我们多数人想像的图景是,在我们大脑的某处有一个小矮人,他试图模仿大脑正在进行的活动,我们将其称为“小矮人谬误”(the Fallacy of the Homunculus。在拉丁文中homunculus的意思是小矮人)。很多人确实有这种感觉(在一定的时候,这个事实本身就需要解释)。但我们的“惊人的假说”并不认为是如此。粗略他说,它认为“所有这些都是神经元完成的。”
有了这一假设,看的问题就赋予了全新的特性。简而言之、大脑中必定存在某些结构或操作,它们的行为就好像以某种神秘的方式与“小矮人”的精神图像相对应。但它们会是些什么东西呢?为了研究这一难题,我们必须了解看所涉及的任务及头脑内完成该任务的生物装置。
你为什么需要视觉系统呢?一种巧妙的回答就是它能使你或帮助你的亲属繁衍后代。但这一回答太笼统了,我们从这里得不到多少东西。实际上,动物需要利用视觉系统去寻觅食物、躲避天敌和其他危险,交配、抚养后代(对某些物种)等等也离不开视觉系统。因此一个良好的视觉系统是无价之宝。
加利福尼亚州理工学院的神经生物学家约翰?奥尔曼(JohnAllman)认为,与爬行类相比,哺乳动物由于它们不停的活动和相对高而恒定的体温,因此就需要保存更多的热量。对于小的哺乳动物而言尤其如此,因为与体积相比,它们的表面积太大了,因而就有了软毛(这是哺乳类独一无二的属性)和高度发育的新皮层。他相信,这一脑区的发育使早期的哺乳动物更聪明,它们可以找到充足的食物用以保持体温。
尽管哺乳动物智力比较发达,但作为一类动物它们并没有特别的视觉系统。这可能是因为它们是从小型夜行动物进化而来的,而这些动物的视觉远不及嗅觉和听觉那么重要。而灵长类(猴、猿和人)则是例外。它们大多数具有高度进化的视觉,但和人类相似,其嗅觉也许是较差的。
恐龙灭绝以后,这些早期的哺乳动物很快发展起来,并取代了恐龙留下的生态真空。哺乳动物较为聪明的大脑帮助它们有效地完成这些任务,并最后导致在所有的哺乳动物中最为聪明的人类的突现。
哺乳动物的眼睛有什么用途呢?进入我们眼内的光子仅能告诉我们视野①中某个部分的亮度和某些波长信息,但是你想要知道的是那里有什么东西,它正在做什么和可能去做什么。换句话说,你需要看物体、物体的运动和它们的“含义”。即它们通常做什么,有何用处,在过去你在何种环境中见过它们或类似的东西等。
为了生存和繁衍后代,你需要的并不仅仅是这些信息。用计算机的术语来说,你必须做到“实时”,即在这些信息过时之前,足够迅速地采取行动。如果计算明天的天气预报要花费一周的时间,就算高度准确这也是没有多大意义的。所以,尽快地提取生动的信息是再重要不过的了。当动物试图捕杀其他动物时,无论对于捕食者或被捕食者,这都是特别重要的。
因此,眼和大脑必须分析进入眼睛的光信息,以便获得所有这些重要的信息。它怎样完成这一任务呢?在更详细地描述看所涉及的东西之前,首先让我给出如下三条基本的评论。
1.你很容易被你的视觉系统所欺骗。
2.我们眼睛提供的视觉信息可能是模棱两可的。
3.看是一个建构过程。
尽管三者并不相关,我们还是依次叙述。
你很容易被你的视觉系统所欺骗。比如,许多人相信,他们可以同样清楚地看任何东西。正如同我通过窗户观察花园时,我的印象是面前的灌木和右方的树木一样清楚,如果我的眼睛在短时间保持不动,就很容易发现这种感觉是错误的。只有接近注视中心,我才能看到物体的细节,偏离注视中心视力就越来越模糊,而到了视野的最外围,我连辨别物体都有困难,在日常生活中,这一限制之所以显得不明显,就是由于我们很容易不断地移动眼睛,使我们产生了各处物体同样清晰的错觉。
拿起一个有颜色的物体,比如蓝色的笔或红色的扑克牌,井把它放在头的侧后完全不能看见的地方。然后,慢慢向前移动它,使它刚好进入视野的边缘,注意,你的眼睛千万不能动!这时,如果你晃动该物体,在你看清楚它是什么之前,就已经感到那里有东西在动。在你能确定那笔是什么颜色之前,你能区别它是水平的还是垂直的。一直到你把它移到非常接近注视中心之前,即便你可以看见它的形状和颜色,但仍不能看清物体的细节。我的笔上有一个“extra fine point”标志。它印得非常小,但我戴上眼镜并把它放在一英尺处,就可以很清楚地读出它。但是,如果将手指放在笔的旁边,且注视点不是在笔上而是在指尖处,我就读不出笔上写些什么东西,尽管它们离注视中心已经很近。我的视锐度随着离开注视中心的距离而迅速下降。
为了用简单和直接的方法演示视觉系统如何欺骗我们,让我们看一下图1,这时,你立刻就会看到一条由背景包围的水平纹理条带。背景的左侧是黑色,然后从左向右逐渐变白,水平条带本身,左侧看起来明显地比右侧亮,但事实上,在整个水平条带的宽度范围,其纹理的亮度都是均匀的。如果你用手挡住背景,你会很容易看到这一点。
我们的视觉系统还可以以更加巧妙的方式欺骗我们。图2是著名的卡尼莎(Kanizsa)三角,因工作于的里雅斯特(Trieste)的意大利心理学家盖塔诺?卡尼莎(GaetanoKanizsa)而得名。你将会看到一个大的白色正三角形呈现在三个黑色圆盘①之前。而且这一白色三角形也许显得比图形的其余部分更亮一些。
这种错觉白色三角形的轮廓常被称为“错觉轮廓”,因为那里并不存在真实的轮廓线。当你用手挡住图形的大部分而只露出很短一段“轮廓”时,你就会发现,原来具有可见轮廓的纸面现在看来是均匀的亮度,没有任何轮廓。
我的第二个一般评论是,我们眼睛提供给我们的任何一种视觉信息通常都是模棱两可的。它本身提供的信息不足以使我们对现实世界中的物体给出一个确定的解释。事实上,经常会有多种可信的不同解释。
一个明显的例子就是在三维空间看物体。如果你将头固定不动并闭上一只眼睛,你仍然可以得到某种程度的深度知觉。这时仅有的视觉信息来自你睁开的那只眼睛的视网膜上的二维图像。假如你的正前方的物体是位于一定距离、具有均匀白色背景的正方形框架(如图3a),你当然会把它看成是一个正方形。
然而,这个线框图形也许实际上根本不是正方形,而是由一个倾斜的、具有某个特殊形状的四边形产生的(如图3b),而它在视网膜上的像刚好与正对着你的正方形完全相同。此外,还会有大量扭曲的其他线框图形可以形成相同的视网膜图像。
这个例子也许显得有些太特殊,因为一个人很少会闭上一只眼睛又固定头部来观察世界。假如你观察一幅照片或某个景物的写生画,此时,即使你转动头部和使用双眼,也只能看到一张平面的照片或图画。但在多数情况下,你仍可以看到图画中表达的三维信息。
某些简单的线画图形可能有几种同样可能的解释。请看图4。该图由画在纸的表面上的十二条连续的黑直线组成。但几乎每个人都会将其看成是三维立方体轮廓图。
这个被称为内克(Necker)立方体的特殊图形有一个有趣的性质。如果较稳定地注视一会儿该图形,立方体就会发生翻转,仿佛观察角度发生了变化一样。再过一会,知觉又会转换到原来的那样。在这种情况下,这幅图像有两种同样可能的三维解释,大脑无法确定哪一个更可取。但值得注意的是,某一时刻只能有一种解释,并不是二者奇特的混合。
对视觉图像的不同解释是数学上称为“不适定问题”的例证。对任何一个不适定问题都有多种可能的解。在不附加任何信息的条件下,它们同样都是合理的。为了得到真实的解,即与那里真正的东西最接近的解(有时用其他检验去测量,如走过去摸一摸它),我们需要使用数学上的所谓“约束条件”。换句话说,视觉系统必须得到如何最好地解释输入信息的固有假设。
我们通常看东西时之所以并不存在不确定性,是由于大脑把由视觉景象的形状、颜色、运动等许多显著的特征所提供的信息组合在一起,并对所有这些不同视觉线索综合考虑后提出了最为合理的解释。
我的第三个一般性评论认为,看是一个建构过程,即大脑并非是被动地记录进入眼睛的视觉信息,正如上面的例子所显示的那样,大脑主动地寻求对这些信息的解释。另一个突出的例子是“填充”过程。一种类型的填充现象与盲点有关,它的发生是由于联结眼和脑的视神经纤维需要从某点离开眼睛,因此,在视网膜的一个小区域内便没有光感受器。请你闭上或遮住一只眼睛并凝视正前方。垂直地举起一个手指,把它放在距鼻尖约一英尺处,使指尖和眼睛的中心差不多处于同一水平,在水平方向移动手指使它偏离凝视中心约15度。稍加搜索你就便会发现一个看不见你指尖的地方(一定凝视正前方)。你视野内的这一个小区域是盲区。
尽管这里存在盲区,但在你的视野中似乎没有明显的洞。比如我前面讲过的,当我在家中从窗户看外面的草坪时,即使我闭上一只眼睛观看正前方,我也感觉不到在草坪中有洞。也许看起来令人吃惊的是,大脑试图用准确的推测填补上盲点处应该有的东西。大脑究竟如何作出这种推测,正是心理学家和神经科学家试图找到的东西,(我将在第四章 较全面地讨论填充过程。)
本章开头我给出了一个短语“眼见为实”。按通常的说法它的意思是,如果你看到某件东西,你就应当相信它确实存在,我将为这一神秘的成语提出一个完全不同的解释:你看见的东西并不一定真正存在,而是你的大脑认为它存在。在很多情况下,它确实与视觉世界的特性相符合。但在某些情况下,盲目的“相信”可能导致错误。看是一个主动的建构过程。你的大脑可根据先前的经验和眼睛提供的有限而又模糊的信息作出最好的解释。进化可以确保大脑在通常的情况下非常成功地完成这类任务,但情况并非总是如此,心理学家之所以热衷于研究视错觉,就是因为视觉系统的部分功能缺陷恰恰能为揭示该系统的组织方式提供某些有用线索。
那么我们应当怎样看待视觉(vision)呢?让我们把那些并不重视视觉问题的人的朴素的观点作为出发点)很清楚,我的头脑中似乎有一幅面前世界的“图像”。但很少有人相信,在大脑的某处有一个真正的屏幕,它产生与外部世界相对应的光模式。我们都知道,电视机之类的装置能够完成这种工作。然而,在打开的头颅中,我们并没有发现按规则阵列排列的脑细胞,它们在发射各种颜色的光。当然,电视图像信息并不仅仅表现在其屏幕上。如果你使用一个特殊的计算机程序来迸行艺术创作就会发现,形成画面所需信息并不是以光的模式存储的。相反,它是以记忆芯片中电荷的序列储存在计算机的记忆中,它可能是以规则的数子阵列形式存储在那里,每个数字代表该点的光强。这种记忆看来并不像图形,然而,计算机可以利用它产生屏幕上的图像。
在此我们举一个符号例子:计算机存储的信息并非图像,而是图像的符号化表示。一个符号就像一个单词,是以一个东西代表另一个东西。狗这个词代表一种动物,但没有人会把这一单词本身看成是真正的动物。符号并不一定是词,例如红色交通信号灯代表“停车”。很清楚,我们期望在大脑中发现的正是视觉景象的某种符号化表象。
那么,你也许会问,我们大脑中为什么没有一个符号化屏幕呢?假使屏幕由一个有序排列的神经细胞阵列组成,每个细胞对图像中的特定“点”进行操作,其活动强度与该点光强成正比。若该点很亮,则该细胞活动剧烈,如果无光,则细胞停止活动。(每点有三个细胞的组合,就还可同时处理颜色。)这样,表象就会是符号化的,假想的屏幕上的细胞产生的并不是光,而是代表光的符号的某种电活动。难道这不就是我们想要的一切吗?
这种排列的毛病是除了每个小光斑之外不能“知觉”任何物体。它能看到的一点也不比你的电视机能看到的东西多。你能够对你的朋友说:“当那个和蔼的女郎开始读新闻的时候,请你告诉我。”但是,试图让你的电视机做到这一点是徒劳的。我们无法使设计的电视机去识别一位妇女,更不用说去识别一位正在做某种动作的特别妇女了。但是,你的大脑(或你的朋友的大脑)却可不费吹灰之力地做到这一点。
因此大脑不可能只是一群仅仅表示在什么地方具有什么光强类别的细胞集合。它必须产生一个较高层次上的符号描述,大概是一系列较高层次上的符号描述。正如我们所看到的那样,这不是一步到位的事情,因为它必须借助以往的经验找到视觉信号的最佳解释。因此,大脑需要建构的是外界视觉景象的多水平解释,通常按物体、事件及其含义进行解释,由于一个物体(比如面孔)通常是由各个部分(如眼、鼻、嘴等)组成的,而这些部分又是由其各个子部分组成,所以符号解释很可能发生在若干个层次上。
当然,这些较高层次的解释已经隐含(implicit)在视网膜上的光模式之中。但仅仅如此是不够的,大脑还必须使这些解释更明晰(explicit)。一个物体的明晰表象是符号化的,无需进一步深入加工。隐含的表象已包含这些信息,但必须进行深入的加工使其明晰化。当屏幕上某处出现一个红点时,要使电视给出某种信号是一件很容易的事情,只要在电视机上加一个小装置就行了,但是,如果想要设计一种电视机,使它当看到屏幕上的任何地方出现女人面孔时就给出闪光,则需要更复杂的信息加工。这实在是太难了,以至于我们今天还不能制造出完成这种任务的复杂装置。
一旦某个事物以明晰的形式符号化以后,该信息就很容易成为通用的信息。它既可以用于进一步加工,又可以用于某个动作。用神经术语来说,“明晰”大概就是指神经细胞的发放必须能较为直接地表征这种信息。因此,要“看”景物,我们就需要它的明晰的、多层次的符号化①解释,这似乎是合理的。
对很多人而言,说我们看到的只是世界的一种符号化解释是难以接受的。因为所有的一切似乎都是“真实的东西”,其实,我们并不具备周围世界各种物体的直接知识。这只不过是高效率的视觉系统所产生的幻觉而已,因为正如我们已经看到的,我们的解释偶尔也会出错。然而,人们宁愿相信存在一个脱离肉体的灵魂,它借助大脑这一精巧的装置,并以某种神秘的方式产生实际的视觉。这些人被称为“二元论者”(dualists),他们认为,物质是一回事,而精神是完全不同的另一回事。与此相反,我们的惊人假说却认为,情况并非如此。所有这些都是神经细胞完成的。我们正在考虑的,是如何通过实验在两者之间作出决断。
=====================================
①更加准确的术语应该是刺激野(stimulus field)。但对大多数读者来说,我认为视野(Visual field)、视场(field Of vision)、视景(visual scene)会更合适。当然,重要的是分清外部世界的物体和看这些物体时你头脑中的相应过程。
①图中单个黑色区域的实际形状――缺口圆盘,通常被称为“派克曼(Pacmen)”。
①使用符号一词并非意味真正存在小矮人(homunculus)。它仅仅表明,神经元的发放与视觉世界的某些方面密切相关,这种符号是否应考虑为一个矢量(而不仅仅是标量)是一个棘手的问题,在此我将不予考虑。换句话说,单个符号是如何分布的?_
第四章 视觉心理学
“当我们追溯心理学发展的历史时,我们就会陷入空想、矛盾和谬误与某些真理交织在一起的迷宫之中。”
――托马斯?里德(Thomas Reid)
我希望我已经说服了你,看并非如你想像得那样简单。看是一个建构过程,在此过程中,大脑以并行的方式对景物的很多不同“特征”进行响应,并以以往的经验为指导,把这些特征组合成一个有意义的整体。看涉及大脑中的某些主动过程,它导致景物明晰的、多层次的符号化解释。
我们现在要考虑的是,当我们观看物体、它与我们及其他物体的相对位置以及它的形状、颜色、运动等某一属性时,大脑必须执行的某些基本操作。也许,我们应该认识到的最重要的一点,就是视野中的物体并不像你看到的那样。每个物体并非以清楚和确定的方式做了标记,你的大脑必须使用各种线索,使景物中对应同一物体的各个部分整合在一起。在现实世界中,这并不是一件容易的事情。物体可能部分被遮挡或是呈现在易于混淆的背景之中。
举个例子就会较清楚了。请看图5中的这张照片。你会毫不费力地立刻看出,这是一张正在注视窗外的年轻女子的面孔。但仔细观看就发现,窗户的木窗棂将该女子的面孔分成了四部分。但是,你并没有把它看成是四个不同人脸的四个分离的片断。你的大脑将它们组合在一起,解释为一个单一物体――被面前的木窗棂部分遮挡的一张面孔。这一组合是怎样完成的呢?
这便是格式塔心理学家马克思?沃特海默(Max Wertheimer)。沃尔夫冈?科勒尔(Wolfgang Kohler)和库尔特?科福卡(Kurt Koffka)的主要研究兴趣之一。这场运动于1912年前后在德国兴起,并在美国结束。纳粹掌权后,他们三人全部离开德国。我的词典将“格式塔(gestalt)”定义为“一个各部分之间相互影响的有机整体,而整体大于各部分之和。”①换句话说,你的大脑必须根据你以往的经验和你的基因中所体现的远古祖先的经验,通过发现各个部分的最优组合,主动地构造这些“整体”。这种组合最有可能对应于真实世界中某个物体的有关方面。很明显,重要的是各部分之间的相互作用。格式塔学派试图对视觉系统共同的相互作用类型进行分类,并把它们称为知觉定律。他们的组合定律包括接近性、相似性、良好的连续性和封闭性。下面让我们依次对它们进行讨论。
接近律说明,我们倾向于将那些相互靠得很近且离其他相似物体较远的东西组合在一起。这在图6中就看得很明显。该图由许多规则的矩形阵列小黑点组成。你的大脑既可能将它们组织成水平线也可能组合成垂直线。但实际上,你把它们看成是垂直线。这是因为,一个点到其最近点的距离,在垂直方向要比水平方向短。其他实验显示,接近律通常指“空间上接近”,而非在视网膜上的接近性。
格式塔的相似律是说,我们将那些明显具有共同特性(如颜色。运动、方向等)的事物组合在一起。如果你看见一只正在跑的猫,你就会把它身体的各个部分组合在一起。因为一般来讲,当猫跑时,它的各个部分会在一个方向上运动。同样原因,正在树丛中爬行的猫也会被识别出来。但是,如果它纹丝不动,我们就很难发现它。
良好的连续性定律可以由图7加以说明。该图的上部分显示两条相互交叉的曲线。我们的确把它看成是两条线,而不是像该图的下部分所显示的那种交汇于一点的四条线或是两个靠近的V型。我们同样倾向于把中断的线段看成是被某个物体遮挡一部分的连续直线。
请看图8a所表示的一组八个奇形怪状的物体。中间两个与字母Y类似,另外六个为扭曲的箭头。而在图8b,你大概会看到一个被三个斜条遮挡的三维立方体框架。现在,那些奇形怪状的物体已成为上下两图的组成部分。第二个图形中更容易看成是立方体,因为它似乎是一个被斜条遮挡的单一物体。而第一个图形,由于缺少任何遮挡线索,因而更容易被看成是八个独立的物体。
封闭性在线画图形中表现得最为明显。如果一条线形成了封闭的或几乎封闭的图形,那么我们就倾向于把它看成是被一条线包围起来的图形表面,而不仅仅是一条线。①
格式塔学派还有一个被称为“简洁”(Pragnanz)的普遍原理,它可以近似地被译为“优良性”。它的基本思想就是视觉系统对输入的视觉信息作出最简单、最规则和具有对称性的解释。大脑如何判断哪个解释“最简单”呢?现代的观点认为,最好的解释往往只需要很少的信息(在技术意义上)进行描述,而坏的解释往往需要更多的信息。①
换句话说,大脑需要一个合理的解释而不是奇特的解释。这就意味着,这种解释不因观察点的微小变化而发生根本改变。这是由于,在过去当你看一个物体时,你常常在景物中运动,因此,你的大脑已经把该物体的各个不同方面记录了下来,并认为它们属于同一个事物。
格式塔知觉定律不能看作是严格的定律,而只能算是一种实用的启发式研究。因此,它们可以作为视觉问题的合适的人门知识。真正哪些操作过程导致了这些“定律”的出现,这正是众多视觉心理学家试图发现的东西。
正如格式塔学派已经认识到的那样,视觉中的一个重要操作就是图形背景分离。要识别的物体称为“图形”,其周围环境称为“背景”。这种分离也许并不总是轻而易举的事,仔细观察图9你就会知道,如果你从来也没有看到过这幅图,你会很难看出有什么可识别的物体。但过了一会儿,你就有可能意识到,图画的一部分代表一只达尔马提亚(Dalmatia,南斯拉夫地名)狗。在这种情形,图形背景的分离被有意复杂化了。
还可能构造一幅模棱两可的图形背景分离图像。请看图10。第一眼看来,它像一个花瓶,但继续观察就可能看成是两张脸的侧视图。本来花瓶是图形,而现在人脸的轮廓线成了图形,原先的花瓶就成为背景了。但是,这两种解释很难在同一时刻看到。
大脑在决定哪些视觉特征属于某个物体时,要依赖于大体上符合格式塔知觉定律的明显的视觉线索。因此,倘若一个物体较坚实(接近性)、具有明确的轮廓(封闭性)、朝一个方向运动(共命运),而且整个为红颜色(相似性),那么,我们就很可能认为这是一个运动的红球。
对一个动物来说,出色地完成此类任务是至关重要的。否则,它就很难发现天敌或猎物以及苹果之类的其他食物。它必须能把图形和背景分离开来。所谓的伪装物就是试图混淆这一过程,伪装的作用是破坏表面的连续性(如战士穿的迷彩服),并产生一个易于混淆的轮廓,从而使真实的轮廓伪装起来。颜色也可能与背景混杂在一起。一只蹑手蹑脚移动的猫不时地停下来,就是为了避免给猎物提供任何运动线索。正如有人所认为的那样,我们由进化获得的良好的颜色视觉,使我们的灵长类祖先能够在纷乱的绿色背景中发现红色的果实。能给我们带来众多视觉乐趣的东西,可能就是最初发现食物和识破伪装的装置。
我们对最早阶段视觉加工知识的了解,部分来自于对眼和脑的研究(参见第十章 )。需要执行的最早操作差不多是去除冗余信息。眼中的光感受器对落人眼睛的光强起反应。假如你观察一面完全均匀而光滑的白墙,那么你眼内的所有光感受器将会对光作出同样的反应。有什么理由将所有这些信息传递给大脑呢?对眼底视网膜来讲,最好是先对这些信息进行处理,使大脑知道哪里是空间上光强变化的地方――墙的边缘。如果整个视网膜区域没有光强变化,那么就不发送任何信号。大脑从“无信号”就可以得出“无变化”以及墙的这一部分是均匀的推论。
正如我们在后面章节将会看到的,在某种程度上,大脑对不同类型信息的处理是在不同的平行通路中实现的。因此,对如何观看形状、运动、颜色等过程分别进行研究是有道理的,尽管这些过程具有某种程度的相互作用。
让我们先从形状开始,很明显,抽提轮廓对于大脑非常有用。这就是为什么我们对线条图能如此容易地产生反应的原因。即使没有任何阴影、纹理、颜色等特征,你仍然可以对某景物的线条图形作出解释(如图11)。这说明,大脑中某些元素对精细的细节有较好的反应,另外一些对细节较少的部分起反应,而其他元素则对空间上的粗略变化起反应。你如果仅仅能看到后者,这世界就会模糊得像焦距没调准一般。心理学家常使用“空间频率”一词。高空间频率相应于精细的细节,低空间频率对图像在空间上的缓慢变化起反应。
请看图12。你很可能将它看成是具有均匀灰度的一些小正方形的组合体。现在,如果把它弄模糊(摘掉眼镜、半闭着眼睛或将它放到房内的远处),你就可能认出是林肯的面孔。图的细节(小正方形的边缘)干扰了识别过程。当视觉变得模糊时,这些细节就不那么显眼了。这时,尽管由于图像中只有较低的空间频率信息,因此图像仍然有些模糊,但是你却能认出他的面孔了,当然,一般说来,不论低空间频率或高空间频率对解释图像都有帮助。
大脑面对的最为困难的问题之一,是从二维图像中抽提深度信息。我们需要深度信息,不仅是为了确定物体与观察者之间的距离,而且还要识别每个物体的三维形状,使用两只眼睛是有帮助的。但常可利用一只眼睛或看它的照片就能看出它的形状。大脑使用哪些线索从二维图像中获得三维信息呢?一个线索就是由入射光的角度产生的物体阴影。请看图13。你可能将其中的一排看成是平面上的四个凹陷物,而将另外一排看成四个突起物。这样的深度印象就来自人射光的阴影。
偶尔,这种解释也可能是模棱两可的。凝视一会儿该图或者将页面倒置,你就会把凹陷看成突起,或把突起看成凹陷(注意,这种变化是同时发生的)。你的大脑最初认为,照明光来自某一侧,但倘若照明光实际来自另一侧,那么同样的阴影就会对应不同的形状,正如你所看到的那样。
另一个令人信服的线索是“从运动恢复结构”。这是说,如果一个静止物体的形状难以看清楚(经常是由于缺少某些三维形状线索),那么稍微转动一下该物体就容易识别了。在讲课时,如果把一个由小球和辐条制成的复杂分子的模型投影在屏幕上,就不易理解。但如果播放它的转动模型的电影,其三维形状就会一目了然。在电视节目《生命的故事》的片尾,你可能看到过这种情景。在那里,DNA分子的模型随空中的音乐而旋转。
要进行三维观察,只看三维空间中的每个物体是不够的。你还必须观看三维空间的整个场景,以便弄清楚哪些物体离你近,哪些物体离你远。即便是二维图像也存在两种很强的深度线索。
第一个线索是透视,它可以用埃姆斯变形房间(因发明者阿德尔伯特?埃姆斯(Adelbert Ames)而得名)进行生动的演示。这种房间只能用单眼从外部通过小孔去观察。这样,就可以排除任何立体视觉线索。这个房间看起来像个长方体,但在实际上它的一边很长。与正方形房间相比,它的一个墙角要高得多,也离我们远得多。当我在旧金山“探索者博物馆”(Exploratorium)通过小孔观看这样的房间时,我看见一些在房间内跑来跑去的小孩。在房子的一侧他们显得很高(因为这时他们离我很近),而在另一侧则显得很矮(这时他们离得很远)。当他们从一边跑到另一边时(实际上是从近处墙角跑到远处墙角,再跑回来),他们的大小会发生惊人的变化。我当然明白,孩子们是不可能通过这种方式改变身高的。但这一错觉是如此逼真,使我无法立刻摆脱它。每个孩子的表观大小是由墙的虚假透视作用产生的。与其他错觉类似,这一错觉很难通过“自上而下”(即大脑的最高水平对这一错觉形成基础的理解)的作用进行校正。
另一个有力的线索就是遮挡。即一个靠近你的物体部分地遮挡远处的物体。我们在图5中就已看到过这种情景。一个女孩的面孔位于窗玻璃的框架之后。利用这一线索,大脑就能推断出,被遮挡物的各个不同部分应当属于同一物体,就像本章开头我们讨论过的那样。
线条能产生两种与遮挡有关的神奇效果。图2所示的卡尼莎三角属于第一种。白色三角形的虚幻边界是由黑色缺损圆盘的直线边界的延伸形成的。另一种效应如图15所示。
这种情况的幻觉边界主要由于了组线段的端点排成了一条线。机场中的“线”出现的原因有多种,如物体(如衬衫)的图案或斑马的条纹以及阴影等。一个遮挡背景的物体经常会截断背景中的线。在这种情况下,线段端点产生的虚幻轮廓将会勾画出这一物体的轮廓,就像图15那种故意设计的图形那样。正如心理学家拉马参准(V.S.Ramachandran)所说:“虚幻轮廓的感觉可能比真正的轮廓还真实(对我们更重要)。”
另外一个距离线索是纹理的梯度变化。如图16所示。你只要看到这种草地的图,就会立刻产生草地逐渐离你而去的印象。这是由于,页面上的草叶自下而上逐渐变小的缘故。你的大脑不会将它看成是一面平坦而垂直的墙,在它的下面草长得比较高,而上面草长得比较矮:而是把它看成一个伸向远方的具有均匀高度的草坪。
还有一些深度线索。一个是物体的表观大小。一个熟悉的物体,当它离我们较远时它在视网膜上的像就会变小。因此,如果该物体的表观尺寸较小,大脑就认为它离我们较远。另一个深度线索是远处的风景通常看起来比较蓝。所有这些线索都被艺术家们所利用,特别是在文艺复兴时期透视现象被发现以后。卡那来特(Canaletto)的威尼斯风景画便是很好的例子。
让我们转向讨论深度信息的主要来源(1)。它通常被称作“体视”,依赖于双眼观察同一物体时景物图像的微小差异。19世纪中叶,物理学家查尔斯?惠特斯通爵士(SirCharles Wheatstone)最早向人们清楚地演示,恰当呈现的双眼图像可以给人生动的深度印象。(怀特斯通还有一件趣事使人记忆犹新。有一次他在伦敦皇家学会等待发表星期五晚上演说时,因高度紧张而逃跑。从此以后,每个演讲者都要按惯例在演讲前被锁在一间小房子内等一刻钟。)怀特斯通还发明了体视镜(战后因设计简单而普及)。它使每只眼睛分别观察拍摄角度略有不同的照片成为可能。拍摄位置的差异就会产生并非严格相同的景观。大脑检测两个景观之间的差异(这在技术上称为“视差”),结果使照片上的场景显现出明显的深度感,似乎就出现在你的面前。
当你观察眼前较近的真实景物时,你可以通过闭上一只眼睛亲自体验一下什么是体视。对大多数人而言,此时的深度感并不像同时使用双眼时那么强。(当然,由于上面提到的其他深度线索的存在,即使闭上一只眼睛,你仍可具有较好的深度感。)另一个明显的例子就是建筑、城市、风景等的写生或摄影。在这种情况下,两只眼睛就能使大脑推断出画面是平面的。实际上,用单眼仍然可以获得较生动的深度感觉。只要你站在一个没有玻璃反光的位置,并用手挡住图画的框架。这些动作去除了图画表面的某些平面线索,使得艺术家在图画中用于表达深度信息的线索产生较强的效果。
离你较近的物体的体视最显著,因为此时双眼视差最大。显然,要使双眼看到同一物体的景象,物体差不多就要在你的正前方。它不能向一侧偏离太远,而使鼻子遮住一只眼的视线。靠捕食为生的动物如猫、狗等,通常双眼都在前方。这样它们就可以利用体视抓捕猎物。而对于其他动物,如兔子,双眼长在头的两侧更有好处,这样,它们就可以在宽广的视野内发现天敌。但与人类相比,它们的体视能力很有限,因为它们双眼的视野重叠很少。①
运动情况又怎样呢?视觉系统对运动感兴趣的原因是明显的。当你看电影时,尽管银幕上看到的是一系列快速呈现的静止画面,而你却具有运动物体生动的印象。这种现象称为“表观运动”。在这种相当人为的情况下,视觉系统可能会出现失误。汽车或马车轮子的辐条有时看起来会向相反方向转动。一般说来,它发生的原因已很清楚。这大体上是由于大脑把一幅图像中的一根辐条与下一幅图像中离它最近的那根辐条联系起来引起的。由于轮子在不停地转动,被联系在一起的可能并不是同一根辐条,而是其他邻近的一根。由于所有的辐条看起来完全一样,大脑很可能把相邻两幅图像中两根不同的辐条联系在一起。如果联系在一起的两根辐条所在的位置完全相同(相对于汽车),则轮子看起来就会是静止不动的。如果转速稍微放慢一点,则轮子的辐条看起来就会向后转动。特别是旧式电影中,这种现象时有发生。当汽车减速时,辐条看起来就改变方向(相对于汽车的运动)。心理学家们已经做了大量实验,试图确定获得好的表观运动所需要的条件。
另外一种运动效应是理发店标志牌错觉(barber's pole illusion)。因为圆柱上有螺旋条纹,当它绕长轴旋转时,条纹看起来不是在转动而是在顺其长轴方向运动,通常是向上运动。(这将在第十一章 中作充分讨论J因此,我们的运动知觉并不总是直接的。在这种情况下,你看到的并不是每个条纹的局域运动,而是大脑错误地把它想像为整个模式的全局运动。
大脑的运动知觉由两种主要过程进行处理。它们可以粗略地被称为“短程系统”和“长程系统”。前者发生在比后者较早的加工阶段。短程系统并不能识别物体,而仅能识别由视网膜接收并传递到大脑的光模式的变化。它可以抽提运动的“基元”,但并不知道是什么物体在运动。换句话说,作为初级的感觉,这种简单的运动信息是有用的。它是自动操作的,即不受注意的影响。
人们猜测,短程运动可以利用运动信息从背景中分离出图形①并与运动后效应(有时称为“瀑布效应”)有关。(如果你注视瀑布一段时间,然后把注视点很快移到邻近的岩石,在很短的一段时间内,你就会看到岩石向上运动。)现在对此现象还有不同的看法。因为最近的实验显示,运动后效应可以受注意的影响。
长程运动系统似乎与物体运动的登记(register)有关。它不仅仅登记运动本身,而且还登记是什么物体从一个地方运动到另一个地方。长程运动系统受注意的影响。
让我们举一个(过分简单的)例子。一个红色方块在屏幕上闪烁很短的时间,再隔一段时间后,在离红方块不远的地方紧接着出现一个闪烁的蓝色三角形。如果时间、距离等参数选取得使长程系统占优势,那么观察者就会看到红方块变成蓝三角并从一个位置移到另一个位置的表观运动。另一方面,如果选择的参数主要激发短程系统(时间间隔和距离都很小),那么观察者将只看见运动而看不见运动的物体。他感受到运动但不知道什么在运动。在大多数情况下,两种系统在某种程度上可能同时起作用。只有精心设计的刺激才会仅仅激活一个系统。
***
大脑利用运动线索获得变化中的视环境的附加信息。我已经描述过,在某些情况下如何从运动恢复结构,还可以通过其他方式利用运动信息。一个正朝你眼睛跑过来的物体会产生一个逐渐膨胀的视网膜图像。如果一个屏幕上的物体突然增大,你就会感到该物体正向你冲过来(尽管屏幕还在同一距离)。这种视觉图像运动被称为“膨胀”。它产生的效果是如此鲜明,以至人们怀疑大脑中有一个特殊的部位对图像的膨胀加以响应。事实上这个部位已经被发现(见第十一章 )。
视觉运动系统的另一个作用是指导你在环境中运动的方式。当你向前行走时,你的眼睛看着前方,你上下左右的视觉场景就会从你身边掠过。这种视网膜图像的运动被称作“视觉流”(visual flow),在飞机着陆时它对飞行员帮助极大,一个没有体视的单眼飞行员可以借助视觉流信息使飞机安全着陆。没有视觉流的地方是你正朝它运动的那一点。所有围绕该点的物体似乎都向远离这一点的方向运动,尽管它们的速度有所不同(如图17)。这种视觉信息帮助飞行员找到跑道上正确的着陆点。
颜色知觉也并非像看起来那样直截了当。基本的观点认为它与眼内不同类型的光感受器有关。每种光感受器只对有限波长范围内的光起反应。重要的是我们应当意识到,单个光感受器的反应怎么会不依赖于输入光子的波长。一个光感受器可能捕获一个光子,也可能捕获不到。如果确实捕获到,则不管光子的波长如何,其效果会完全相同。但它响应的概率却依赖于波长。某些波长激活它的概率很大,某些波长则很小。比如,它可以经常对“红”光子起反应,却很少对“绿”光子有响应。
对输入光子流的平均响应可能对应于敏感波段的少数几个光子,也可能对应于非敏感波段的许多光子;感受器无法分辨它们。初读这些内容时,这一切似乎相当复杂,但已有的经验告诉我们,如果眼睛只有一种类型的光感受器,你的大脑就会失去光的波长信息,因而只能看见黑白的世界。这种情况出现在特别昏暗的时候,这时,被称作“视锥”的一类光感受器不活动,只有“视杆”感受器起作用。这些全是一种类型的光感受器,对所有波长反应相同。这就是为什么在夜晚很暗的情况下,你在花园内看不到花的颜色的原因。
要获得颜色信息,就需要不只一种具有不同波长响应曲线的光感受器。它们的响应曲线是部分重叠的。但是,一个具有同一波长的光子流,对不同的光感受器引起不同程度的兴奋。大脑利用这些不同兴奋的比例,确定落在视网膜上某点光的“颜色”。
大家知道,大多数人具有三种视锥细胞(大致是短波、中波和长波锥细胞。它们常被称为蓝、绿、红视锥细胞)。但也有少数人缺少“红”视锥细胞,因此导致部分色盲。①他们在分辨红绿交通信号时可能会碰到困难。
***
这就是对为什么我们能看颜色所作的基本解释。但它还需要进行某些修正。在此,我仅想提一下所谓兰德效应(因偏振片的发明者埃德温?兰德(Edwin Land)而得名)。兰德以戏剧性的方式向我们演示,视野内某斑块的颜色并不仅仅依赖于从该斑块进入眼睛的光的波长,它还与从视场其他部分进入眼睛的光的波长有关。
为什么会这样呢?进入眼内的信息不仅取决于表面的反射特性(颜色),还与落到该表面的光的波长有关。因此,在阳光下和在烛光下,妇女们色彩缤纷的服装会有很大区别。因此,大脑主要感兴趣的不是反射率和照明光的组合,而是物体表面的颜色特性。大脑试图通过比较眼睛对视野中若干不同区域的响应来抽提出这种信息。要做到这一点,大脑利用了如下约束(假设),即在某一时刻,在该景物的各处,照明光的颜色是相同的。尽管在其他场合,它们可能是明显不同的,如果照明光是粉红色,它就使所有的东西程度不同地变为粉红色。因此,大脑就力图校正它。这就是为什么阳光下的红色纤维在人工照明下看起来依然是红色的原因。但是,正如我们知道的,它看上去并不完全相同,因为校正机制并非工作得尽善尽美。
下面我们稍微提一下另外一些视觉恒常性。一个物体看上去总是大致相同的,即便我们没有直视它,使得它落在了视网膜上的不同部位也是如此,如果我们在不同的距离观察一个物体,物体的视网膜图像可能变大或变小或产生一定的旋转。然而,我们同样将它看做是同一物体。我们将这些恒常性视为理所当然的事情。但简单的视觉机器却无法做到这一点,除非它具备发育成熟的大脑所具有的完成该任务的固有装置。大脑到底如何完成这些任务,我们仍然不十分清楚。
运动和颜色之间具有奇怪的相互关系。大脑的短程运动系统有些色盲,它主要观看黑白图像。利用演示很容易说明这一点。将仅有两种均匀亮度的颜色(比如红和绿)构成的运动模式投射到屏幕上。然后调节两种颜色的相对亮度,使它们对于观察者来说看起来具有相同的亮度。这一过程必须对每个人分别进行,因为你和我的色平衡点不会完全相同。①这一平衡条件被称为“等亮度”。
现在,如果你在屏幕上观看一个绿色背景上的红色运动物体,而且两种颜色调整为等亮度,那么其运动速度就显得比实际情况慢得多,甚至可能停止运动(特别是当你注视屏幕的一侧时,情况更是如此)。这是因为你大脑中的黑白系统将屏幕看成是均匀灰色(因为两种颜色是等亮度的),所以短程运动系统几乎得不到运动信息。
所有这些例子都说明,大脑可以从视觉场景的多个不同方面抽取有用的视觉信息。那么,如果外界提供的信息不完整,大脑如何处理呢?眼睛的盲点就是一个很好的例子。如我们在第三章 中讲过的那样,你的每只眼睛中都有一个盲点,你的大脑会对它进行“填充”。因此,即使你闭上一只眼睛,也看不到视场中盲点处有一个洞。哲学家丹?丹尼特(DanDennett)不相信存在填充过程。在他的(意识的阐释)(Consciousness Explained)一书中,他正确地争辩说“信息的缺失不等于缺失的信息。”他还说:“你要看见洞,大脑的某个地方就必须对反差作出响应:或是内外边缘之间的反差(但在这个位置,你的大脑没有完成该任务的装置),或是前后之间的反差。”因此,他认为不存在什么填充,只是缺少那里有洞的信息。
但是,这一论证是不充分的。因为他没能证明,盲点处的信息无法推论出来。他只是说明大脑可能没有进行这一推论。说大脑肯定没有完成这件事情的必需机制也是不正确的。对大脑的细心研究表明,确实具有某些神经细胞有可能完成这一任务(见第十一章 )。
加利福尼亚州大学圣迭戈分校心理系的视觉心理学家拉马参准做了一个巧妙的实验来反驳丹尼特(每个人都喜欢证明哲学家是错的),他向被试者呈现一个类似油炸面包圈似的黄色环形图案(见图18b)。被试者必须使眼睛静止不动,并用单眼进行观察。拉马参准将黄色圆环放在被试者的视野内,使它的外沿落在盲斑之外(睁开的眼),而内侧则落在盲点之内(图18b)。此时被试者报告说,他看到的不是一个黄色圆环而是一个完全均匀的黄色回盘(图18c)。他的大脑填充了盲区,使一个粗的圆环变成一个均匀的圆盘。
为了强调这一结果,拉马参准又将其他几个类似的圆环放入被试者的视野中,当这些图形呈现之后(其中一个圆环围绕盲点,其他圆环放在别处)。被试者报告说,他不仅看到盲点区域的完整圆盘,而且看到圆盘立刻“跳出”(pop out)。这表明,被试者的注意立刻被圆盘所吸引,这和你睁开双眼观看黄色环组成的随机阵列中有一个实心圆盘时的情况完全一样。明显与圆环不同的圆盘会立刻跳出在你前面。正如拉马参准所说,你确实对盲斑进行了填充,而不是仅仅忽略了那里存在的东西。因为,被忽略的东西怎么能真正跳出来呢?
在盲点处看到的东西是不容易研究的,因为它偏离凝视中心15度。正如我前面说过的,那里的东西我们不能看得很清楚。拉马参准和英国心理学家理查德?格里高理(Richard Gregory)已经完成了一个称为“人造盲点”的实验。该盲点离凝视中心较近。(丹尼特曾在脚注中提到这一工作,但对他们的结果不甚满意。)更引人注目的是,拉马参准及其合作者对一个病人进行了检验。他的问题不是出在眼睛,而是在大脑的视区内有一小部分损伤。这样的病人不能如实看到视场中相应位置的东西。这一块区域是盲区。但毋庸置疑,只要放宽时间,他的大脑就会利用从周围得出的合理推测来填充它。
他们的实验结果可用图19说明。在阴极射线屏幕上有两条竖直的线段处于同一直线上。一条在盲斑之上,一条在下。几秒钟后,病人就会看到一条直线完全跨过间隙。一个病人还报告说,当屏幕上的线条去掉后,他“在线的填充部分看见一个非常生动的幻象”,其持续时间有好几秒,更令人惊奇的是,如果呈现给两个病人的是两条错开的竖直线(图19c所示),开始,他们看到的是两条错开的直线,但后来两条线就会相互“漂移”靠近,最后两条直线完全对齐。然后,大脑填充上它们的间隙,形成一条连续的直线(如图19d)。报告称,这些线的水平移动(记住,它们实际上是完全静止不动的)栩栩如生。两位病人对此现象深感惊讶,并表现出极大的兴趣。
其他的一些实验表明,并非视觉每个方面的填充都是同时进行的。形状、运动、纹理和颜色的填充可以在不同时间内完成。例冤五章 注意和记忆如,当视场由许多运动的随机红点组成时,一个病人将颜色“渗入”到盲区几乎是立刻完成的,而在5秒钟以后才会形成运动圆点的动态模式。
需要注意的是,大脑中因伤害形成的盲斑与眼睛真正的盲斑两者所引起的结果具有重要的区别,对于后者,填充差不多是立刻完成的。在大脑损伤的情况,这个过程则需要若干秒。这大概是由于损伤失去了大脑中快速填充的部件。
填充可能并非是盲点所特有的过程。更可能的情况是,它以某种形式发生在正常大脑的多种水平。它使大脑能从仅有的部分信息中猜测出完整的图画。这是一种非常有用的能力。
现在,我们对视觉心理学的复杂性已有了大体的了解,显然,观看并非是一件简单的事情。这与我们仅凭日常经验作出的猜测有很大的差别。它的工作方式还没有被我们完全理解。它涉及许多我们不得不略去的实验和概念。下一章 我们将涉足看的两个其他方面――注意和短时记忆,用来拓宽我们的研究领域。它们都与视觉意识有紧密的联系,而且还会引人不同视觉加工所需时间这样一个十分棘手的课题。
====================================
①正如我在第一章 所解释过的,如果过于简单地理解“和”这个词,这当然是正确的。
①最近,加利福尼亚大学(伯克利)心理学家斯蒂芬?帕尔莫(Stephen Palmer)提出另外两条律:共同区域(common region)和联结性(connectedness)。共同区域(或称包容性)意味着相同的知觉区域组合在一起。联结性是指视觉系统把均匀的、联结在一起的区域知觉为单一单元的强烈倾向。
①这可能或多或少地依赖于估计信息内容时采用的是哪些“基元”(primitives)。
①大脑如何利用视差是个值得重视的理论问题。比如,需要弄清楚,一只眼睛的图像中的哪个特征与另外一只眼睛的哪个特征相对应。这称为“对应问题”。最初认为,要解决这个问题,大脑首先要识别物体,在贝尔实验室工作的匈牙利心理学家贝拉?朱尔兹(BelaJulesz),用随机点立体图进行的精彩的实验清楚地显示,两图之间的“对应”可以在先于物体识别的、低水平的信息处理阶段实现。
①一小部分人似乎缺少真正的立体视觉。
①这种从背景分离图形的任务提出了一个困难的理论问题,因为大脑必须在不知道什么是图形的情况下进行图形背景分离。
①严格他讲,我们大家都是色盲。因为除了像紫外线这一类我们不能看见的波长外。可以构造出任何数目的、在我们看来是完全相同的波长分布;而它们如果用一个合适的物理仪器去测量,实际上并不完全相同。除了少数情况有保留外,我们对任一波长分布的响应可以与仅仅三种波长的合适组合相匹配。这是早在19世纪就已确认的事实。按数学术语,颜色是三维的。
①即使对于同一观察者,位于注视线上的物体与位于视场外围的物体,它们的平衡点也可能稍有不同。
第五章 注意和记忆
“你没有注意,”海特说,”要知道,若非心神专注,你将一无所获。”
――据刘易斯?卡罗尔(Lewis Carroll)改写
每个人都懂得“你没有注意”这句话的一般意义。这可能是你的注意力不集中,也可能是你昏昏欲睡或是由于某些其他的什么原因。心理学把“唤醒”(或警觉)与“注意”(attention)区分开来。唤醒是影响一个人整个行为的一般条件,当你早上醒来的时候,就会注意到这种情况,正如威廉?詹姆斯所说,对心理学家说来,注意就意味着“摆脱某些事物以便更有效地处理其他事物”。
我们主要关心的是视觉注意,而不是在听音乐或从事某种活动时的注意。我们知道,注意被认为起码对某些形式的意识有所帮助。视觉注意的一种形式就是眼动(经常辅助以头部运动),由于在靠近凝视中心的地方我们看得较清楚,所以当我们双眼的视线正对着某个物体时,就会获得更多的信息。否则,如果不是直视物体,我们只能获得粗略的信息(至少有关形状的信息是如此)。
是什么机制控制眼动呢?这种眼动包括由反射性响应所引发的眼动(比如眼睛突然跳到凝视中心之外的某处)到由意志控制的眼动(“我想了解他正在那里干什么”)。所有形式的注意可能都具有反射性和意志性两种成分。
听觉选择性注意的一个例子,是让某个被试者集中注意从耳机进入一只耳朵的声音,而试图忽略进入另一只耳朵的不同声音。很多来自非注意耳的声音没能达到意识水平,但可以在头脑中留下某些痕迹,并对注意耳听到的东西产生影响。它们被记录于大脑的某一加工层次。
因此,注意就是滤除未被注意的事件。被注意事件的响应具有较快的速度、较低的阈值和较高的精度,注意还可以便该事件容易被记忆。过去,心理学家们并不关心我们头脑内部发生的事情,他们大多通过测量反应速度和误差水平等去研究注意。换句话说,他们研究的是注意某事件时所引起的结果(与未注意该事件时相比较),并试图从实验结果的模式中推论出注意的可能机制。
令人吃惊的是,当你的眼睛保持静止不动时,有些事情就无法完成。比如一个随机点模式在屏幕上快速闪烁,它的呈现时间很短,因而不可能产生眼动。在这种条件下,你能够说出随机点的个数吗?如果它们只有三四个,你可以正确地报告出它们的数目;但是,如果有六七个或更多,你就会发生错误。这并不能仅仅归因于刺激的亮度。如果闪烁光点非常亮,它们就会在视网膜上留下后像(这时如果你移动眼睛,固定在视网膜上的光点模式将随你的眼睛一起运动)。在数秒钟以内,你可以一直看到它们,但你仍然无法精确地数出它们的个数――这是一种非常奇怪的感觉。当你开始计数时,你就会忘记哪个圆点你已经数过了。
有没有某种形式的注意不依赖于眼动呢?注意能在两个大幅度的眼动之间转移吗?美国奥尔良大学的临床心理学家迈克尔?波斯纳(Michae1posner)对此进行了大量的实验。他和其他研究者表明,确实存在这样一种视觉注意形式。在一个典型的实验中,被试者通过注视某个特殊点而使眼睛保持不动。一个瞬时出现的信号提示被试者,在某个地点(比如说在注视点的右边)可能会出现一个物体。当看到物体出现时,要求被试者尽快地按动开关,其反应时间就会被记录下来。如果在某次实验中,物体没有出现在所期望的地方(如出现在注视点的左边),则反应速度就会变慢。反应时间的延迟被解释为被试者不得不将视觉注意从期望的一侧转向非期望的一侧。波斯纳认为,注意的这种变化可能涉及以下三个连续的过程:
解除原有注意―>移动注意点―>实施注意
首先,系统需要从视野中正在注意的地方解除注意。然后必须把“注意”点转向新的位置,最后在新地点实施注意。另一个重要的问题就是一个人能否同时注意视野中两个分离的位置或物体?有证据表明,这是办不到的①,尽管也许可以跟踪若干③个运动的点。但有确凿证据表明,注意可以在空间上进行精细聚焦或者在较大范围内扩展。比如:当你读一本书时,你主要注意的是单词而不是一个个分开的字母。而在校对时情况则不然,你必须仔细检查每一个字母和标点,否则小的差错就会被遗漏。对我个人来讲,校对是一件困难的事情。因为通常我的阅读速度很快,除非我集中注意,否则很难发现一些细小的印刷错误。
很清楚,注意改变了我们看物体的方式。理论家如何解释这一现象呢?我可以直截了当他说,目前还没有一个被普遍接受的注意理论。因此,我能做到的,充其量不过是描述某些当前流行的
粗略他讲,大家普遍同意的观点是,注意涉及一个瓶颈问题。其基本思想就是初级加工过程大体上是一个平行的过程,即许多不同的活动同时进行。然后,似乎有一个或多个阶段存在信息处理的瓶颈。一个时间只能处理一个(或少数几个)“对象”。它通过临时滤除来自非注意对象的信息而实现。然后,注意系统迅速转向下一个对象。因此,注意大体上是串行的(即,注意一个之后再注意另一个)而非高度并行的(正如系统同时注意很多事情时的情况)。①稍后,我们将详细讨论并行和串行加工的重要区别。
通常把视觉注意比喻为“探照灯”。在探照灯内部,信息以一种特殊的方式被处理。这样,我们就可以快速、精确地观察被注意物体,并使我们更容易记住它。在“探照灯”以外的信息,或者被处理得较少,或者处理方式有所不同,还可能根本不予处理。大脑的注意系统将假想的“探照灯”从视野的一个地方快速转移到另一个地方,就像我们移动眼睛一样,只不过这时移动的速度慢得多罢了。
探照灯比喻以最简单的方式向我们暗示,视觉系统注意的是视野中某个地方。许多间接证据表明,情况确实如此。另外一种观点认为,我们注意的并不是某个特别的地方而是特别的物体。在某些情况下,如果物体运动(眼睛仍保持不动),注意可以追踪该物体,而不是停留在一个地方不动。在目前看来,在一定程度上两种形式的注意(对视觉物体的注意或对视觉位置的注意)可能同时出现。
心理学家一般都严格区分前注意(preattentive)加工和注意(attentive)加工。在美国工作多年的匈牙利心理学家贝拉?朱尔兹已经给出了某些前注意加工的显著例证。请看图20。左边两种“纹理”之间的边界可立刻看出来。现在让我们看看该图的右半部:初看时没有明显的纹理边界,但仔细观察就会发现,一个区域是由不同朝向的字母L组成,而另一个区域则由字母T组成。但这种差别并不能立刻跳出(pop-out)。要看到它需要集中注意(focal attention)。
还有另一种研究跳出(或缺少跳出)的方法。在屏幕上呈现一个视觉图像并保持一段短暂的时间。在此情况下,刺激图像常由要求被试者检测的“目标”和其他稍微不同的物体(被称为“干扰项”)组成。比如,可能是大量的字母散布在图像上,除了一个字母是红色之外,其他的全部都是绿的。被试者的任务是一看到红色字母便立刻按下按钮。我们发现,被试者可以非常迅速地完成这一任务。更为重要的是,反应时间与只有少数几个绿色字母或者很多绿色字母无关。换句话说,不管那里有多少个干扰项,反应时间都一样。红色字母立刻跳出在眼前。
安妮?特丽斯曼(Anne Treisman)是研究注意有影响的心理学家之一。1977年,她和两个同事合作,完成了一个著名的实验。实验的要点是这样的。她首先证实了红色字母可以在绿色字母的背景上跳出。如果所有字母的颜色都相同,则单个字母T可以在字母S的背景中跳出。这意味着,对于颜色和形状两个方面,跳出都可以发生。然后,他们给被试者一个更为复杂的任务。一半是绿色字母T另一半是红色字母S,此外,还有一个红色字母T。被试者的任务是找出红色字母T这时,被试者既不能单找一个红色字母,也不能单找一个字母T;因为符合这两个条件的字母太多了。被试者必须寻找颜色(红)和形状(T)两者结合在一起的字母。而这种结合不能立刻跳出,要发现红色字母T需要一段时间,而且干扰项数目越多,所需时间越长。如果图案中有25个字母,发现单个红色字母T的时间要比仅有5个字母时长得多。①
这种情况被看作是串行搜索机制的证据,即为了判断一个字母既为红色又是T形,注意系统在一个时刻只能看一个字母。
注意从一处移到另一处需要多少时间呢?这是一件较为复杂的事情。似乎物体越“突出”(对注意系统有更大的影响),花费的时间也越短。这种情形是可能出现的。例如,若红色字母非常鲜艳,视觉系统就可以通过把”探照灯”扩展到较大范围,一次检测几个字母。这意味着只需较少的步数便能搜索完全部字母。因此,每个字母的处理时间就减少了。有人认为,一个时刻处理一个物体所需要的时间为60毫秒左右是有可能的。如果一个时刻处理两个物体,每步所需的时间仍为60毫秒,那么每个字母(一个时刻本来只能观察一个字母)现在的处理时间就只有30毫秒。而如果能够同时处理三个物体,那么每个字母的处理时间就是20毫秒。
但还有更复杂的情况。也许被试者的大脑经过训练而变得较为聪明,从而只注意红色字母(并忽略绿色的字母)。这样就会有
上半的字母被忽略。这就意味着,他可以在注意步速相同的情况下更快地完成搜索任务。在这种情况下,120毫秒的步速就可以得到同样的观察结果。
我们也会遇到令人遗憾的情况。在某些情况下,每步时间看起来可能少于20毫秒,而真实的步速可能长达120毫秒。这是由于在发现红色T字母之前,被试者不但只注意红色物体,而且他一批处理三个字母,因而“欺骗”了我们。在这种情况,探照灯移动一步的正确时间就难以确定了。
特丽斯曼同时说明,跳出也可以是非对称的。一个有缺口的圆圈可以在一群完整的圆圈的背景中跳出(图21a);然而要在有缺口的圆圈背景中发现一个完整的圆圈就需要串行搜索(图21b)。
心理学家是怎样描述前注意加工和注意加工之间的差别呢?最初特丽斯曼认为,前注意加工是以平行的方式把视野内物体的朝向、运动、颜色等简单特征登记在某些特有的子系统中。然后,集中注意以某种方式将这些特征整合到一起。更仔细的实验使她发现,如果特征整合所允许的时间非常短,大脑就会出现差错。有时它会张冠李戴,错误地将特征整合到一起,从而给出一个虚假的组合。在授课时,特丽斯曼用一张快速呈现的幻灯片来演示这种现象。该幻灯片呈现的是一位黑发的红衣女郎。可是,观众中总有几位非常自信地称,他们看到的是一位红发女郎。女郎的毛衣的颜色被错误地“移植”到了头发上,因而产生了幻觉组合。
这种事情在日常生活中可能发生,只不过是为数较少罢了。特丽斯曼举了一个例子:“一个穿行在繁忙街道上的朋友‘看到’一个同事,并且正要打招呼。但他突然意识到那个人的黑胡子长到了一个过路人的脸上,而他的秃头和眼镜却属于另外一个人。”
“简单特征”究竟是什么,目前我们还不清楚。①但遗憾的是,大量的研究说明,跳出并非是直截了当的事。在这里,我并不打算描述众多此类实验的细节。
通常,特丽斯曼的很多注意模型都认为,跳出与较长过程的顺序搜索截然不同。但是,凯尔?凯夫(Kyle Cave)和杰里米.沃尔夫(Jeremy Wolfe)等其他的一些心理学家则认为,跳出只不过是注意过程的第一步。他们假设,注意系统有某种程度的“噪声”,因而容易出现错误。如果物体足够“突出”,则把注意的探照灯移到该物体所在的地方或移到该物体作为注意的第一步。如果物体并不突出,系统在选择目标时就可能遇到困难。在最终发现目标之前,也许经过了多次尝试,这样就会花费较多时间。这种机制可以产生与简单的顺序搜索机制相类似的结果。
邓肯(J.Duncan)和汉弗莱斯(G.Humphreys)甚至否认探照灯的存在,他们认为,视野中的不同物体全都试图达到短时记忆。如若成功,在某些情况下它们就会成为活动的焦点。他们的层次模型还考虑到不同干扰项之间的关系。比如,这些干扰项是相同的还是具有多种不同类型。
进一步的研究也许会使心理学家获得一个能被普遍接受的注意模型,不过,它可能不会很简单。我猜想,正确的模型将不大可能仅仅从心理学实验中得出,因为这一系统看来太复杂了。①大脑中某些相关神经元的行为的知识,对于获得正确答案也许是必需的。
因此,我们只是部分地了解了视觉注意。我们还没有一个被普遍接受的心理学注意模型。
短时记忆情况如何呢?我们对它知道多少呢?记忆也许定义为由经验引起的系统内部的变化,这种变化导致以后的思想或行为发生改变。但是,这种泛泛的说法并没有多大价值。它应该适用于疲倦、受伤和中毒等情况,又不应严格区分学习和发育(早期生长)。以色列神经生物学家雅丁?杜戴(Yadin Dudai)提出了一个更为有用和更为精确的定义。他首先描述了什么是“世界”(包括内部和外部环境)的“内部表达”。他将世界的内部表达定义为“能够有效地指导行为的结构化神经编码方式”。它强调的是,从根本上说,我们主要关心的是神经细胞(神经元)如何影响行为。“学习”则是由经历引起的内部表达的创新或修改。这一变化可以保持相当一段时间(甚至可以保持很多年)。不过,我们更关心的还是短时记忆。
我感兴趣的不是像习惯化或敏感化(sensitization)之类的极简单的记忆形式(如果你连续十次向小孩呈现一幅图画,开始他会表现出兴趣,但很快就会产生厌倦。这就是“习惯化”)。这些过程被归类为“非联想”过程。它们甚至在海胆等一些非常低等的动物身上也能表现出来。我们更关心的则是“联想学习”,有机体对刺激和动作的关系作出反应。(2)
将记忆分成几种不同的类型是有益的,尽管对它们的确切描述还存在争议。一种方便的分类是把记忆划分为情景记忆、类别记忆和程序记忆。清景记忆是对一个事件的记忆,它经常与某些与此有联系的无关细节交织在一起。(1)一个很好的例子就是,你会记得当你听说肯尼迪总统遇刺时你在什么地方。类别记忆的一个例子是单词的含义,如“行刺”或“狗”。而回忆如何游泳或驾驶汽车便属于程序记忆。
另外一种分类方法与时间有关:获得记忆需要多长时间,它一般能保持多久,某些记忆,特别是情景记忆被称为“一次性”或“闪光快门式”学习。仅仅一个事例就可记得很清楚。(当然,这种记忆也可以通过复述被强化。即把这件事再讲一遍,并不要求次次正确。)另一种类型的记忆可通过事件的重复被增强。人们从重复中抽提出某件事物的普遍性质,如,未经明确定义的单词的含义。
诸如开汽车之类的过程性知识常常很难从一次经历中获得,往往需要重复练习。它可以保持相当长的一段时间。一旦你学会游泳,即使多年没有游过你也会游得很好。当谈及一首熟悉的乐曲时,一位著名的钢琴家曾经对我说:“肌肉的记忆是最久的。”这意味着乐曲的演奏是自动的,无需思索的。
不同的记忆持续的时间也不同。它们经常被分为长时记忆和短时记忆。尽管这一术语对于不同人可能具有不同的含义。“长时”通常指几小时、几天、几个月乃至几年;“短时”则从几分之一秒到几分钟或更长。短时记忆通常是不稳定的,而且容量有限。
想一想你在梦中的一些事情。当你做梦时,你不能使梦中的任何情景进入长时记忆(或至少清晰地回忆起)。你的大脑把梦中的情景以某种形式的短时记忆保存起来。当你醒来之后(这可能会比你意识到的频繁得多),你的长时记忆系统才被接通。然后,仍然保存在短时记忆中的东西便进入长时记忆。所以你回忆起来的并非你梦到的所有事情,而只是梦的最后几分钟。如果你在刚醒来时受到电话铃或是什么别的干扰,梦的短时记忆就会衰减或完全丧失,以至电话之后你可能连梦的最后几分钟都回忆不起来了。
我们知道,记忆的回忆不是一个直接的过程。要回忆一件事情往往需要某个线索,尽管这时记忆有可能是扑朔迷离的。有些记忆很弱,需要更强的线索才能唤起。另外的一些甚至在完全丧失前就淡化了。一个相关的记忆可能会干扰和阻碍了你所需要的记忆内容的获取。
很明显,意识特别是视觉意识把很多存储在长时情景记忆和类别记忆中的内容结合起来。我们较为关心的是极短时的记忆。这是由于,如果我们丧失了对所有最近事件的记忆形式,我们很可能会失去意识,然而,这种最重要的记忆形式却仅能持续几分之一秒或至多是几秒钟。让我们集中讨论这些极短时间的记忆形式。
请你看一看面前的景物,然后突然闭上双眼。你看到的外部世界的生动图像很快就会消失。留给你的只是一个模糊的回忆。它通常在几秒内就会消失,早在18世纪就有人试图测量它消失的时间。一个黑暗中运动的光点(比如说一个发光的烟头)将在后面留下一个光尾。对光尾长度进行的现代研究表明,光的知觉大约可持续100毫秒,尽管有些是由于视网膜后像。
心理学家如何研究各种各样的短时记忆呢?美国心理学家乔治?斯帕林(GeorgeSperlig)1960年进行过一个经典的实验。他以极短的时间(约50毫秒)在屏幕上显示一个由十二个字母组成的字母集。字母排成三行,每行四个。由于时间太短,被试者每次只能回忆出四五个字母。然后在下一个实验中,他要求被试者仅报告其中的一行,他使用一个声音信号提示被试者应该报告哪一行。但这一线索仅在呈现的图形刚刚关闭之后才给出。在此情况下,被试者可以报告出该线索指示行的四个字母中的大约三个字母。
人们也许仅仅根据第二个实验就得出结论,既然被试者能够报告出三行中任意一行的四个字母中的三个,那么他就能报告出三行字母中的九个(三乘三)。但正如我们看到的,实际上他只能回忆出这十二个字母中的四五个。这有力他说明,字母是由大脑从迅速衰减的视觉痕迹中读出的,这种极短时的视觉记忆被称为“图标记忆”,它来自单词icon,是图标的意思。
对此问题,还有许多其他的研究。在刺激呈现前后,视场是亮或暗对衰减时间是有影响的。在暗视野中,衰减时间大约是秒的量级,而在较明亮的视野中则少得多,或许只有零点几秒。这种亮背景效应被称为“掩蔽”。还可以用某些模式作为掩蔽,但这两种俺蔽类型截然不同,简而言之,明亮背景的掩蔽可能发生在双眼的信息结合之前、视觉系统的初级阶段、可能是在视网膜阶段;而模式掩蔽在很大程度上依赖于字母呈现与掩蔽之间的时间间隔。数据说明,这大概发生在双眼信息结合之后视觉系统的若干个水平。
图标记忆似乎依赖于瞬时视觉信号的存留时间。它主要不是从信号的后沿算起而是从前沿算起。这表明其生物学功能是提供足够的时间(大约为100-200毫秒)来处理这种非常短暂的信号。这就意味着,要实现充分的视觉加工,至少需要某个最短的时间。
还有更长一些的短时记忆。英国心理学家艾伦?巴德利(AlanBadileley)对这种记忆进行了深入的研究,把它称为“工作记忆”,一个典型的例子就是回忆一个新的七位数的电话号码。你能回忆出来的数字的个数称为你的“数字广度”。对大多数人来说,它通常只有六到七个。换句话说,工作记忆的能力是有限的。这种记忆似乎具有几种不同的形式,它与感觉输入有关。对于视觉,他将其称为“视空间便笺簿”。典型情况所涉及的时间为若干秒。它似乎还与回忆面孔或熟悉的物体时的视觉想像有关。它的特性与较短的图标记忆有很大差别。图标记忆可能涉及大脑中不同的过程。
工作记忆对意识是必要的吗?有某种证据表明,情况并非如此。某些脑损伤的病人只有极小的数字记忆广度,除了他们听到的最后一个字母外,别的一概回忆不起来,但他们的意识却正常。事实上,他们的长时记忆可能并未受到损害。迄今为止,还没有发现一例丧失了所有形式的工作记忆(视觉和听觉)的病人。这是由于引起这种欠缺(而没有任何其他缺陷)的脑损伤,只能局限于某个非常准确的部位(而且还要在不同的地方),因此,实际上这种情况可能永远不会发生。
长时记忆看来不同于图标记忆或工作记忆。一个看过约2500张不同彩色幻灯片(每个10秒)的被试者,十天以后还能辨别出其中的90%。因为,如果只是要求被试者确认从前是否看过某幅图画(并不是无线索地回忆,那样会更困难),那么他只需要回忆每幅图画的很少一部分信息就可以了。
我们不会花费很大精力去考虑长时情景记忆,因为一个不能形成新的长时情景记忆的脑损伤病人,仍然是清醒和有意识的(见第十二章 )。只有短时记忆特别是图标记忆才可能与意识的机制密切相关。
==================================
①这里有一个可供参考的证据,如果切除胼胝体,每半大脑就可以注意不同的物体。
③然而,大脑有可能把这些运动的点看成是一个正在改变形状的单一物体的边角。观点,并提及一些主要的争论点。
①经过练习,大脑可以把某组特殊的物体(比如一组字母)作为一“组块”去跟踪。
①一个实验和另一个实验的响应时间差别很大。因此,要重复实验结果,就要让被试者作出多次响应,并对响应时间进行平均。在某些情况下,需要应用若干个被试者,并计算出他们的平均响应时间。
①有实验证据说明,这是可以发生的。
①有人提出过一个研究项目,用来探讨什么视觉特性可以跳出(它们应对简单特征,视觉“基元”进行响应);而复合特征需要进行顺序搜索。
②还有其他一些这里没有提到的简单记忆形式,其中有经典的条件反射,操作性条件反射和启动(priming)。
①有证据显示,在最初的一段时间内,很多人清楚地记得当他们第一次听到林肯遇刺时的情景。
第六章 知觉瞬间:视觉理论
“心理学是一门很不能令人满意的学科。”
――沃尔夫冈?科勒尔(Wolfgong Kohler)
图标记忆和工作记忆的衰减时间可能是相当短暂的。我们对引起意识的各种处理过程所需的时间了解多少呢?回忆一下第二章 的内容就知道,某些认知学家喜欢把大脑的活动看成是执行计算的过程,他们认为,引起意识的不是计算本身而是计算的结果。
有些人声称,某些脑的活动并不能达到意识水平,除非它们持续的时间超过某个最短的时间。如果这种活动较弱,这一时间可能要长达半秒。单是为了指导我们探索意识的神经相关物,就需要我们了解与单个“知觉瞬间”(moment of perception)对应的脑活动的持续时间类型。单个处理周期涉及怎样的时间类型呢?
让我们考虑如下的情况。首先,给被试者呈现一个20毫秒长的瞬时红光刺激。之后,在原来的地方马上呈现一个20毫秒的绿光刺激。被试者报告看到了什么呢?他看到的不是一个红色闪光紧接着一个绿色的闪光,而是一个黄色闪光。就如同这两种颜色同时闪烁时所看到的情形一样。然而,如果绿色闪光不是紧跟红光之后,被试者就会报告看到红色闪光。这说明,直到来自绿光的信息被加工完之前,被试者不可能意识到黄颜色的存在。
因此,你不能感受到一个刺激的真正开始时刻,你也无法估计出一个短暂刺激的真正持续时间。早在1887年,法国科学家查蓬特尔(A.Charpentier)就发现,长达66毫秒的闪光刺激,看起来并不比7毫秒的闪光刺激持续更长的时间。
1967年美国心理学家罗伯特?埃弗龙(Robert Efron)就此问题写了一篇颇具洞察力的好文章。他通过用不同方法进行估算得出结论,处理周期的持续时间大约为60到70毫秒。这个数字是对较容易观察的突出刺激而言。对于不清楚或较为复杂的刺激,其处理周期将会更长,这是不足为奇的。。
那么,对于更为复杂的加工又需要多少时间呢?在这种情况下,通常是先呈现一个视觉刺激,然后紧接着一个快速的掩蔽(mask),即在视野中的同一位置呈现一个视觉模式,用以干扰观看原刺激所必需的某些处理过程,详细解释这一结果是困难的。如果系统是简单的、顺序进行的,信号从一个阶段稳定地进展到另一个阶段中间没有停顿,而且步入意识不花费时间,那么来自掩蔽的信号根本不可能赶上来自刺激的信号。既然掩蔽能够干扰刺激的知觉,这就意味着至少某些处理步骤是要花费时间的。这无论如何都是可能的。尽管在解释上还存在困难,但掩蔽效应仍可以向我们提供某些该过程的有用信息。
美国心理学家罗伯特?雷诺兹(Robert Reynods)通过若干个实验来研究这个问题。他希望说明,知觉的不同方面可以在不同时刻看到。换句话说,他试图研究从刺激呈现到形成相对稳定的知觉的时间历程。
作为一个例子,让我们看一看第四章 描述过的虚幻轮廓的知觉所形成的时间。为了避免被试者猜测或撒谎,雷诺兹向被试者呈现图22中两个图样中的一个。每个图案都是由如图所示的三个缺口圆盘组成,其中第一个幻觉边框是直线,而第二个为曲线。刺激呈现时间为50毫秒,经过某个延迟①时间之后,紧接着呈现的是如图22c所示的一个掩蔽。刺激模式大而明亮,即使呈现时间很短被试者也能够清楚地看见三个缺口圆盘,由于存在图标记忆,在没有掩蔽的情况下,我们有理由认为,来自显示图形的信号对大脑的作用时间将会超过图形闪烁的时间50毫秒(大概有几百毫秒)。
雷诺兹发现,如果掩蔽紧随刺激出现,则绝大多数被试者就看不到幻觉三角形。少数报告看到幻觉三角形的人也常常发生错误,将直线三角和曲线三角搞混。然而,如果延迟时间为50到75毫秒,即SOA为100到125毫秒,则所有的观察者都报告说看到了三角形,尽管他们还不能完全准确他说出三角形的边是直线的还是曲线的。
这清楚地表明,总的加工时间完全取决于他看到的是什么。在幻觉三角形出现之前的一段时间内,三个缺口圆盘(pacmen)可以看得很清楚。
需要注意的是,这些实验并不能精确他说明,在何时大脑产生知觉的“神经相关物”。它只能说明,对于知觉的某些方面其处理时间很可能比其他方面要长。
雷诺兹又进行了另一个更为复杂的类似实验。同样的幻觉三角形被画成是好像放置在透明的砖墙后面。对这样一种视觉图样的解释是不确定的。被试者先看见三个缺口圆盘,之后看见一个亮三角形,接着这个三角形又被拒绝,然后三角形知觉又重新出现①。这后三个阶段,每个的时间约为150毫秒。
显然,“计算”的时间(timing)依赖于它们的复杂度。尽管详细的解释仍然有赖于确切了解不同脑区之间信号的传递方式及它们之间的相互作用(这不大可能是简单的),但目前起码我们对视觉处理所需的各种时间类型已有了一个粗略的想法。直到我们对参与看(seeing)的不同大脑过程以及它们的相互作用②方式有了更清楚的了解之前,我们不大可能得到更为精确的时间。
我已经简要地阐述了视觉加工的诸多方面,但还没有系统他说明我们应如何认识所有这些加工,这是一个困难的问题。如果这是一本专门讨论视知觉的书,我将不得不用一定篇幅来描述一些有关视觉的最新思想,即大脑如何通过执行复杂的活动而使我们看见外部世界。除了第二章 中提到的那些认知科学家以外,大多数理论家对意识没有表现出多大兴趣,由于这个原因,再加上还没有一个被普遍接受的视觉理论,因此,很多不同的探讨我都没有给出详细的描述。然而,下面简短的综述将会给读者一个大体的印象。①
人们对视觉感兴趣有多种不同的原因。某些人希望制造一种视觉机器,它能像我们一样或比我们更好地看东西,以便把它应用于家庭、工业或者军事目的,除了把大脑看作是思想的源泉外,他们不太关心大脑如何完成这一工作。一个视觉机器并不需要严格模拟人脑,就像飞机并不需要扇动翅膀一样。
另外一些人的主要兴趣则是人类如何看物体。某些功能主义者持有一种极端的观点。他们认为,了解脑的细节永远得不到任何有用的东西(2)。这一观点是如此古怪,以至大多数科学家都惊讶它为什么能够存在。而另一种极端的观点是来自某些神经科学家,他们主要关心动物脑神经细胞对视觉图像的响应,却极少关心这一活动如何产生视觉。幸运的是,现在有少数研究视觉的学生,他们的观点介于这两个极端之间,他们既对视觉心理学感兴趣也对神经细胞的行为感兴趣。
人们对这些问题的想法也是千差万别的,某些人认为重要的是研究视觉环境――即我们脚下的大地、头顶的蓝天以及其问的万物。他们并不关心大脑,因为他们认为,所有需要去做的就是对环境的各方面产生“共鸣”,不管它意味着什么。他们将自己称为吉布森主义者。因其己故宗师吉布森(J.J.Gibson)而得名。另外的一些人则试图分析基本的、但是相当有限的视觉操作,如由阴影恢复形状、理发店标志错觉等,并且编制能解决这些问题的计算机程序。在人工智能领域,这种传统仍然很强。还有一些人则将大脑中的过程比作日常生活中的物体或事件。他们经常谈论“探照灯”或“为某一物体打开一个文件”之类的东西,在过去的二三十
年间,所使用的解释常常建立在计算机如何工作这一基础之上。他使使用一系列明确的规则以获得所需的结论,并且涉及某些计算机概念,包括中央处理、随机存储等,较新近的进展便是神经网络(由相互作用的神经元集合组成),它们的相互作用大致上是并行的,而且没有明确的规则。(在第十三章 中将作较全面的讨论。)
正如我们在第四章 看到的那样,格式塔心理学家希望揭示视觉活动的基本原理。他们争辩说,正如理解空气动力学定律对于理解鸟和飞机的飞行非常重要一样,理解视觉也必须寻找它所涉及的普遍原理。这一研究方法的现代形式常使用信息学术语表达他们的理论。毫不奇怪,数学家们则倾向于发现某种普遍的数学原理。对普通读者来讲,要描述所有这些思想也许需要一大本书的篇幅。
所有这些观点都有一定的价值,但它们尚未被融合在一起,形成一个详细的、被广泛接受的视觉理论,只要回避视觉意识问题。任何现有的视觉理论都是不充分的,无论如何,视觉是一个复杂和困难的过程,直到下一个世纪以前,我们都不大可能提出一个综合的视觉理论。如果现在我们就想研究视觉意识问题,我们就不得不竭尽全力。为此,我们需要某种尝试性的观点,否则我们就只能错失良机。
我认为,已故戴维?马尔(Devid MaIT)提出的研究方法是非常有用的,马尔是一个英国年轻人,为了给脑研究做准备,他在剑桥大学获得了一个数学学位。其博士论文提出了一个详细而新颖的小脑理论。后来,悉尼?布伦纳(sydney Brenner)和我在英国剑桥我们的实验室内为他提供了一间办公室,在那里,他提出了有关视皮层与海马的一般性操作理论,他的兴趣部分转向视觉人工智能,并到麻省理工学院(MIT)与意大利理论家托马索.波吉奥(Tomaso Poggio)合作,1979年4月,他们两人一块到索尔克研究所(Salk lnstitute)对我进行了为期一个月的访问。马尔曾经写了一本名为《视觉》的著作(他死后才出版)。在书中,他以简捷的方式解释了许多有关视觉的创新思想(他的科学论文不易读懂)。虽然并非所有这些思想都能经得起时间的考验,但在当时,这本书对这些问题的阐述仍然是巧妙精辟的。最后一章 中有一段马尔与一个勉强的信奉者(我本人)之间的假想对话,它大体上模仿了他和波吉奥在索尔克的时候,我们三人之间的多次谈话。
马尔设想出一个普遍的框架,用以描述视觉过程的粗略轮廓。他认为视觉的主要任务是获得形状的表象;明度、颜色、纹理等都不如形状重要,他自然而然地采纳了这样的观点,即大脑在其内部构建外部世界的符号表象,使隐含在视网膜图像中的很多方面显现出来。马尔认为(当然,这基本上是正确的),所有这些不可能一步完成,相反,他假设存在一个表象序列。他把它们称为“原始要素图”、“2.5维图”和“三维模型”表象。
原始要素图(primal sketch)使二维图像中的光强变化、几何分布和组织等重要信息显现出来。它处理的特征包括边界线段、斑点、端点、间断点和边界等。2.5维要素图使以观察者为中心的坐标系中的可见表面的朝向(和大概深度)和它们的轮廓显现出来。3D模型表象则描述以物体为中心的各种形状及其空间组织。
这样视觉任务至少可分成三个独立的阶段。这是非常有益的,因为它至少使我们意识到,看东西还需要做那么多事情。但在细节上不可能都是正确的。三个阶段可能只是一级近似,比如,颜色、纹理、运动理应加到“形状”之上。也许比三个阶段还要多,而且这些处理阶段也可能并不像他描述的那样具有严格的区别,它们可能存在双向相互作用,然而,他的框架毕竟说明了当我们看物体时所发生的处理类型,(我将在第十七章 中讨论它和神经科学的关系。)
马尔35岁时因患白血病英年早逝,这是理论神经生物学研究的一个重大损失。我坚信,如果他还在世,他绝不会固步自封,而会随着研究的进展进一步发展其脑理论,他的聪明才智和富于想像的创造力一定会帮助我们冲破今天所面临的一切困难。因为他不仅仅具有非凡的智力,对不同领域内的大量实验证据还有极强的消化吸收能力。
为了理解大脑我们需要怎样的解释风格呢?我本人所持的观点与拉马参准的知觉功利主义理论最为接近,他认为,视知觉既不涉及我们争论时所使用的那种严格的、理智的推论,也不涉及大脑对视觉输入的“共振”那种含糊不清的想法。视知觉也不像人工智能研究者经常暗示的那样,需要求解复杂的方程才能解决。与此相反,他认为知觉“使用的是粗略的拇指规则、捷径以及某些手法熟练的小窍门。这些都是经过亿万年的自然选择,由实验和错误获得的。这是生物中熟悉的策略,但由于某种原因没有引起心理学家的注意,他们似乎忘记了大脑本身就是一个生物器官。……”我也同意拉马参准的如下表述:“直接打开黑箱去研究神经细胞的响应是解决这一问题的最好方法。但是心理学家和计算机科学家却常常对此心存疑虑”。
按照拉马参准的观点,现阶段视觉心理学家的主要任务不是构建复杂的数学理论来解释他们的结果,而是去勾画出所谓的视觉“自然历史”,特别是视觉的旬级阶段。当视觉任务被分解成许多组成部分,特别是当显示出某些相互作用较弱或缺少时,我们就会知道到底哪些东西需要用神经元术语去解释。这些解释未必包括复杂的数学理论,但必定涉及相互作用的神经元的特性以及它们相互联结的细节。因此,由于视觉世界的复杂性,人们期望找到具有多种动态相互作用方式、粗糙但却有效的快速加工过程。
下一步我们就要了解人脑(和猴脑)以及组成它们的众多神经细胞和分子,这将是第二部分的主题。
=================================
①雷诺兹报告他的结果时使用的术语是“刺激前沿非对称”(stimulus onselasynchrony)(SOA)。由于刺激的持续时间为50毫秒,因此,50毫秒的SOA意味着刺激结束后掩蔽立刻开始。我把它称为零延迟。
①请注意,被试者井非在一个实验中报告所有这些阶段。本结果是通过比较不同的掩蔽延迟之后的知觉做出的推论。
②我把里贝特(Libet)的某些研究工作放到第十五章 去考虑。
①当然,对于那些进行视觉意识实验的人,最重要的是要具备视觉心理学和各种视知觉理论的详尽知识。这样,起码可以避免出现不应有的错误。
(2)“关于大脑,你需要知道的一切就是如何模拟它。”哲学家、人工智能专家和语言学家常常采纳这种观点。在逃避严格的科学方法的人中间,这种观点并不陌生。
第七章 人脑的概述
“他们越看越惊讶,他知道得那么多,那小小的脑瓜怎能容得下。”
――奥利佛?戈德史密斯的田园诗《荒芜的村庄》
(Oliver Goldsmith,The Deserted Village)
从老鼠到人类,所有的哺乳动物的神经系统犹如按照同样的设计图构建的一样,尽管它们在尺寸上有极大的差别,比如,老鼠和大象,它们脑的大小不同,各个部分的比例也不尽相同。爬行动物、鸟类、两栖类和鱼类的脑与哺乳动物的脑存在着极为明显的差别,但它们毕竟还有亲缘关系的。在此我将不多讨论。我也不打算描述在胎儿期及幼年期脑的发育过程。当然,这些都是有助于我们了解成熟脑的重要课题。一般说来,基因(以及正在发育中由基因控制的后天过程)似乎规定着神经系统主要的结构,但是还需要靠经验不断调整、精炼该结构的许多部件,这是要贯穿整个生命过程的。
身体的其他部分怎样附属于脑,又如何与之通讯的,这是一个极为明显的事实,却很少有人问津。神经系统就是接收来自身体上各种不同的传感器的信息。所谓传感器就是把化学或物理的影响,如光、声或压力,转换为电信号。
有些传感器对大量来自体外的信息有响应,像眼睛作为光感受器就是对光产生响应。它们对外界的环境起着监视作用。还有一些传感器对体内的活动有响应,比如:对你患有胃痛或是血液的酸性改变都很敏感。因此,它们也对体内变化起着监视作用,神经系统的运动输出就对身体的肌肉产生控制,脑还影响机体各种化学物质的释放,比如:某些激素。直接同所有的输入和输出有关的外周细胞仅仅占神经细胞总数的很少部分,因此,大量的神经细胞只参与系统内部的信息处理。
中枢神经系统有各种不同的分区方法,一种简单的方法是把它分为三部分:脊髓、脑干(在脊髓的顶端)以及在其上面的前脑。脊髓接受来自身体的感觉信息,并且把指令传输到肌肉。由于我们关心的是视觉,所以就不进一步讨论脊髓及脑干以下部分。我们主要的兴趣是前脑,特别是新皮层,它是大脑皮层最大的那一部分。
大脑皮层(通常简称为皮层)分为两片分离的细胞层,分别位于脑的两侧,对人脑来说,这两片神经细胞层总的面积比手帕稍大一点,因此需要充分地折叠后才能容纳在头骨内,神经细胞层的厚度略有变化,一般有2-5毫米厚,它就构成了皮层的灰质。灰质主要由神经元、细胞体和分枝构成,也包括许多称为“神经胶质细胞”的辅助性细胞。皮层中每平方毫米约有1 0个神经元。①因此,人脑的新皮层中约有几百亿个神经元,它可以与银河系中星星的数目相比较。
神经元之间有些连接是局域的,一般延伸不到一个毫米,最多也只有几个毫米;但有些连接可以离开皮层的某个区域,延伸一段距离,到达皮层的另一些区域或者皮层外的地方。这些长距离的连接表面覆盖着脂肪鞘,它是由一种称为髓鞘质的物质构成。脂肪鞘能够加快信号的传递速度,同时它还呈现出白色烁光的表面,因此被称为白质。脑中大约有40%是白质,也就是这些长程的连接,这生动而又简明他说明了脑中的相互连接与通讯是如此之多。
新皮层是皮层中最复杂的部分。旧皮层(paleocorex)为一个薄片,主要与嗅觉功能有关。海马(有时也称为古皮层)是一个令人感兴趣的高层次结构(这意味着它与感觉系统的输入相距较远)。在信息被传送到新皮层之前,对于一些新的、长程的、系列事件中一个事件的记忆编码要在海马中储存约几个星期。
在脑前部还有几个亚皮层结构与皮层有联系,见图23所示。这里面最重要的一部分叫丘脑,②有时也称之为皮层的入口。因为通向皮层的主要输入必须通过此处,③见图24所示。丘脑通常被分为二十四个区域,每个区域与新皮层的一些特定子区域相联系。丘脑的每个区域与皮层区域有大量连接,并且接受由那里传来的信息。这种反馈连接的真正目的还没有弄清楚。来自新皮层的许多其他连接并不都经过丘脑,这些连接还可以直接通往脑的其他部分。丘脑跨在皮层的重要入口,但不是在主要出口上。
丘脑不远处有一个发育完善的结构,通常统称为纹状体,见图25所示。尽管它们确切的功能尚不清楚,但这些区域在运动控制中起着重要作用。丘脑的一些特殊区域(统称为层内核)主要投射到纹状体,并且更广泛地投射到新皮层。
***
在过去的一百多年来,有关不同精神功能在新皮质上的定位一直存在着争论。一种极端的观点是整体论,认为皮层所有区域的功能大致是一样的,而另一种相反的观点则认为皮层每一小块区域执行着相当不同的任务。
19世纪的早期,维也纳的解剖学家弗朗兹?约瑟夫?加尔(Franz Joseph Gall)相信脑功能的定位,他用各种富于奇异的属性来标记头骨的各部分(例如:崇尚、仁爱、尊敬等),而这些属性在皮层均被认为是定位的,见图26所示,带有这些标记的像陶器的人脑模型现在依然存在。加尔认为通过研究头骨的隆起,就能推导出一个人的许多特性。当我还是一个小孩时,当地的一个算命先生为骗取我母亲的钱而要相我头骨的隆起。他宣称我的头骨隆起非常有意思,但还需要付额外的钱,他便可以更详细地研究它们。但我从未发现他推演出的有关特性。
虽然加尔是第一个重要的脑功能定位的鼓吹者,但其具体的思想是完全错误的,结果使皮层定位在医学界留下了一个很坏的名声。现在,通过对猕猴皮层详细的研究,同时也来自人脑资料的支持,我们认为皮层存在着某种程度上的功能定位,但具有明显不同性质的皮层区域共同参与大多数精神活动,因此,不能把定位的思想极端化。
用一个小的有机分子的特性,比如糖或维生素C,作个可能有用的类比。每个原子的定位都与其他原子有关,每个不同的原子都有其本身的特性――例如,氧原子就极不同于氢原子。尽管有些原子通常比另一些原子更重要,而分子的整体特性又依赖于构成该分子的那些原子之间的相互作用,有时链接原子的那些电子是完全地被定位的。有些情况下,例如像苯之类的芳香族化合物,一些电子分布在许许多多原子上。
因此我们可以绘制一幅新皮层的略图,并根据它们主要的功能标记在不同的区域上,见图27所示。视觉区域定位在头的后部,见图23所示,听觉区域定位在头的两侧,而触觉区域位于头的顶部。就在体感区域的前面是控制随意运动输出的区域,也就是说这些区域的意欲性指令控制着肌肉的运动。前脑区的确切功能还没有定论,或许它们是负责作计划的,特别是作长时间的计划以及完成一些高层次的认知任务。前脑区中的一个小区域可能参与眼睛的自主运动。
广为人知但也非常奇怪的是皮层的左边却大部分与身体的右侧直接相关。①一束称为“胼骶体”的神经纤维,将皮层的两个区域连接在一起。在人脑中,胼胝体约有五亿条神经纤维,它们是双向传输的。
人类具有独一无二的语言功能。对所有惯用右手与大多数惯用左手的人,语言区主要位于脑的左侧。至少有两个主要区域与语言有关。一个区域位于脑后侧,称为“威尼科(Wernicke)区”,另一个在刚刚被发现时,称为“布洛克(Broca)区”,它近于脑前方侧边,离主要运动区不远。至今,它们当中没有一个区域已得到详尽的了解,主要原因是没有动物具有如此高度发达的语言,而动物正是我们了解大脑的主要实验材料。在这两个区域附近还存在着一些其他区域,尤其是皮层的额叶区,它也参与了语言的处理(见第九章 )。我确信一定能够证实,包括布洛克与威尼科区在内每个这样的大区域都是由许多独特的小的皮层区域构成的,并以复杂的方式连接在一起。
当头的左侧受到猛击,则会导致身体右侧部分瘫痪,同时还会干扰言语的表达能力,然而未受损伤的右脑也许仍能发誓,甚至能演唱,此外,这样的一个人也许仍然能够分辨男性与女性的声音。如果右脑受损伤,这后一个功能也许会丧失。尽管演唱音乐的能力已丧失,但讲话的能力依然完好无损。
这些例子说明了两点:在脑中确实存在着某种程度上的功能分区,但究竟哪些被定位了并不如人们所猜测的那样。
在皮层外部有一个称为下丘脑的区域,见图23所示,对身体的许多运作是至关重要的,它具有许多小的亚区,而这些小的亚区的主要功能是对饥饿、口渴、温度、性行为及类似的身体运作起调节作用。下丘脑与垂体有密切的连接。垂体是一个将各种激素分泌到血液中的微小器官。
小脑是一个较大、也很引人注意,但并不算重要的脑区,它位于头的后部。在某些鱼类中,比如:电鱼、鲨鱼等,小脑高度发育。它可能参与了运动的控制,特别是一些技巧的运动。然而,天生没有小脑的人也可能正常地活着。另一个位于脑干的重要区域是网状结构。它们具有许多紧密相互作用的区域,它们的功能仅仅部分得到了解。这个区域的神经元控制着苏醒与睡眠的各个阶段。一团团这样的神经细胞可发送信号到前脑的各个部分,也包括新皮层,例如,一小团被称为蓝斑的神经元发送信号到包括皮层在内的各个地方。这些神经纤维可以从皮层的前区延伸到后区。在这个通路上,与其他神经细胞形成千千万万的连接。蓝斑确切的功能还不清楚。在睡眠的快速眼动期(REM),即我们大多数的梦发生在这期间,蓝斑的神经细胞基本上变得不活动。这种不活动有可能把一个记忆放人一个长期存储器中,也可能有助于解释为什么我们不能回忆起做过的大多数梦。
在脑干的顶端有一对结构对视觉系统是重要的。在蛙这样低等的脊椎动物中,这对结构叫作视顶盖,而在哺乳动物中称为上丘,它们或许构成了青蛙视觉系统的主要部分。但在哺乳动物中(特别是灵长类),这个角色就由新皮质担任了。在哺乳动物中,上丘主要与眼睛的运动有关,特别是眼睛的自发运动。
与我们身体其他器官相比,人脑不是个单一的结构。像心脏、肝、肾、胰具有极不相同的功能一样,大脑的各个区域也具有特定的功能。然而,身体中不同的器官有非常密切的相互作用,肝是造血器官,而心脏是泵送血液的。同样在大脑中也存在着许多的相互作用,参与运动控制的不仅有脊髓,而且还有在它上面的许多区域,例如运动皮层、纹状皮层与小脑。参与视觉的有上丘、丘脑的视觉部分与视皮层,它们必须各司其职。
从广义上说,我们对身体的绝大多数器官的主要功能以及每个器官究竟是怎样实现其功能的已有相当的了解。举一两个例子可以说明这些知识还是相当新的。当我在40年代末,开始研究生物学时,胸腺的功能还不清楚,甚至没有人会猜测出它在我们的免疫系统中起着关键作用。我最初了解它是由于小牛的胸腺是DNA一个方便的来源。遗憾的是我们对大脑的不同部分了解仍处在相当初级的阶段。丘脑、纹状皮层、小脑的确切功能是什么呢?我们只能对它们的行为作一般的概述。而详细的了解有侍于进一步的研究。我们对海马的功能也只有一个粗略的了解,但对其确切的功能没有统一的认识。这一切都有待于进一步的发现。
从最高层次的角度描述了什么是大脑后,让我们进入低层次的结构,看一看视觉系统中的主要构成及单个神经细胞。
========================
①灵长类动物的第一视区是例外,它有大于两倍这个数目的神经元。
②丘脑这个词来自于希腊语,它的意思是内房,即洞房的意思。视觉丘脑的一大部分被称为枕叶,这个词的原意是枕头。
③对脑干和其他一些稍有些扩散的系统不是这样的。
(1)嗅觉是个例外,鼻子的右侧连接到大脑的右侧。
第八章 神经元
“脑的功能不可能与它的基本单元――神经细胞一的功能完全没有联系。”
――伊丹?赛杰夫(Idan Segev)
由于“惊人的假说”强调了“你”就是大量神经元行为的体现,因此,你应该对神经元以及它究竟做些什么有个粗略的了解。尽管神经元的种类繁多,但其大多数都好像按照同一幅蓝图构建的一样①
一个典型的脊推动物的神经元对于施加在它的胞体、枝体――它的树突(见图28所示)――上的电脉冲刺激具有三种响应模式:有些输入使它兴奋,有些使之抑制,还有的可以对它的行为进行调制。当神经元变得相当兴奋时,它就会将一个峰形的电脉
冲下行传至它的输出电缆,即轴突,这样一根轴突通常也有许多分枝。电信号将沿着各个分枝及小分枝传输直至与其他神经元相联系的轴突,它也会对其他神经元的行为产生影响。
这就是神经元的主要工作。它通常是以电脉冲形式接收来自许许多多其他神经元的信息。实际上,它就是对这些输人进行复杂的动态加和,然后把处理后的信息以电脉冲流的形式沿着它的轴突传输到许多其他的神经元,虽然神经元为了维持这些活动及合成分子需要能量,但它的主要功能就是要接收和发送信号,简而言之,就是处理信息。一个类似的情况是:一个政治家会不断地收到来自那些想让他投票赞成或反对某一项措施的人士们的信息一样,当他在表决时就必须考虑所有这些信息。
在没有任何信号时,神经元通常也会沿着轴突以相对较慢、无规则地传送背景脉冲。这种发放率一般是1-5赫兹(1赫兹表示一秒中有一个脉冲或一个周期)。这种连续的“易激动”活动状态,可以使神经元处于警觉点,并随时对新的刺激做出更强烈发放的准备。由于神经元接收许许多多兴奋的信号,使它处于兴奋状态,则它的发放率就会增至一个很大的值,典型的为50-100赫兹或更高。在短时间间隔内,发放率可达到500赫兹,见图29所示。1秒钟内有500个脉冲,乍听起来觉得很快,但把它与家用电脑的处理速度作一比较,它是极慢的。如果一个神经元接收一个抑制性的信号,它的电脉冲输出可能比正常的背景发放率更少些。但这种减少是那么小,以至于它只能传送相当少的信息。神经元只能沿着轴突下行传送一类信号。当然没有“负”的峰电位。而且,这些电信号一般从胞体沿着轴突单向下行传输,直至这些轴突的终端。①
神经元是什么样子的?它是由什么构成的?在许多方面,神经元类似于人或动物体内的其他细胞。它的许多基因由DNA构成,而DNA位于细胞内一个被称为“细胞核”的特殊结构中的染色体上。细胞体内还有其他一些特殊结构,它们(例如:细胞的能源基地――线粒体)具有自己的DNA。体内几乎所有细胞都有两套基因信息的复制品,①分别来自每个母体。每一套都约有1 0个不同的基因。②并不是所有的基因都在所有的细胞中活动。有些在肝脏的细胞中更活跃,有些在肌肉细胞中更活跃,等等。一般认为,在脑中各个部位的基因比任何其他器官中所具有的基因都更加活跃。
这些基因的大多数对某种或另一种蛋白质合成的指令进行译码。如果把每个细胞看作一个工厂,那么蛋白质就是使这个工厂进行运转的快速而又精巧的机械工具。蛋白质一般的体积通常是细胞体积的十亿分之一,它是如此的小,用光学显微镜都无法看到。但它的形状(不是其近乎原子结构的精确细节)有时还能够用电子显微镜观察到。每一种蛋白质都具有它自己极为精细的特定分子结构,它们是由成千上万个原子按照各自独特的方式连接在一起的。生命中起关键作用的分子正是以原子的精确性而构筑起来的。
细胞中的所有东西被包容在有点流动的类脂膜内,这层膜能阻止蛋白质和它们的产物离开细胞,膜上的一些蛋白质好比灵敏的门或泵,控制各种分子进出细胞。整个细胞结构是由那些有机的分子构成,且具有灵敏的控制部件,以便使细胞可以进行自复制,并且与体内其他细胞有效地进行相互作用,简而言之,在如此小的空间内,竟发生如此奇迹般的化学反应,这是经历了儿十亿年自然选择进化的结果。
神经元与体内的其他细胞泅然不同:成熟的神经元既不会移动,也不会聚在一起和发生正常的分裂。如果一个成熟的神经元死后,(除极少外)它不会由新的神经元代替。与许许多多其他细胞相比,神经元的外形更具刺突形。神经元树突的分枝随其不同的类型各异,但它通常有几个主要的分枝,而每个分枝又可分成几倍之多的小分枝。细胞体(常称为胞体)可长成各种不同大小,一般其直径约为20微米。①
在新皮层中最常见的一类神经元叫作锥体细胞,它的胞体稍像角锥,在顶部有大量的树突,见图30所示。其他神经元,例如星状细胞,在各个方向上都有分枝,见图31所示。
神经元的轴突(输出电缆)可以非常长,例如,像你的脊椎柱能有几英尺长,否则你就无法摆动你的脚趾(记住一个神经元胞体的半径很少有大于千分之一英寸)。没有脂肪髓鞘包着的轴突的直径通常很小,一般在0.1-1微米范围内。轴突外面包着脂肪髓鞘,它的电脉冲传输速度要快于不带髓鞘的。
***
轴突中的峰电位并不像导线中的电流。在金属导线中,电流是由一团电子携带的。在神经元中,细胞绝缘膜上有蛋白质构成的分子门,电效应依赖于通过分子门进出轴突的那些带电离子。由于离子来来回回的运动使跨膜的局域电位发生变化。正是电位的这种变化要下行传输到轴突。这个信号要不断地更新,需要补充能量。因此,沿着轴突下行传输的脉冲不会衰减,而且它的形状和幅度在终点与起始点大体相同。这样的一个特性就使得峰电位在被传送很长的距离后,还能对与轴突未端相联的神经元产生明显的作用。
在19世纪,人们错误地认为峰信号的传导速度很快,以至于无法测量,或许是以光速传播。在上个世纪中叶,由亥姆霍兹(Helmholtz)最终测出这个速度,才发现它很少有超过每秒30英尺的(这个速度约为声音在空气中传播速度的三分之一)。当时包括亥姆霍兹父亲在内的许多人对这个结果感到非常惊讶。对没有脂肪鞘的轴突,它的速度一般为每秒5英尺,这个速度看上去相当低(实际上,它比自行车的速度还低),它等价于每毫秒行走1.5毫米。
轴突的远端需要得到来自胞体分子的给养,因为几乎所有的基因与大多数用于蛋白质合成的生物化学物质都在胞体内,而不在轴突内。沿着轴突存在着双向的系统的分子流动。观察用高倍放大的光学显微镜拍摄的这种分子的流动是极不寻常的,它展示出小的粒子彼此缓缓地行进着,有些下行到轴突,有些是上行至胞体;有些行进速度稍快些,有些则不然。但是,所有这些流动的速度都远远低于轴突中峰信号的传播速度。很自然,为指挥和控制这种运输,就需要有特殊的分子部件参与工作。
神经元经典的观点认为树突(输入电缆)是“被动的”,这意味着当电位从树突的某个位置传到另一个位置时,它是衰减的。原因是一些离子漏过了细胞膜而引起的,就像摩尔斯电码信号沿着横穿大西洋的电缆行进了相当长的距离后,常常也会衰减一样。正是这个原因,树突一般比轴突短,通常它的长度仅有几百微米。现在有种猜测,认为有些神经元在树突中也存在着主动的过程,但是它们或许并不与轴突中发现的完全一样。
电脉冲沿着轴突向下一直传输到神经元之间的特殊的连接处――突触。每个神经元在它的树突与胞体上有许许多多突触。一个小的神经元约有500多个突触,一个大的锥体细胞可多达2万个。新皮层中每个神经元平均约有6000个突触。由于峰信号是电信号,对下一个神经元的作用主要也是电的,因此,可能会认为突触也是某种电接触。其实,有些突触是电接触,但更普遍的情况是神经元之间的信号传递要比电传导复杂得多。
实际上,两个神经元不是直接连接在一起的。从电子显微镜拍摄的照片中容易看到,见图32所示,在两个神经元之间有一条明显分界的裂隙,约为四十分之一微米宽,这条裂隙被称为突触裂隙。当电脉冲到达突触前侧时,它能使一小包的化学物质(称为囊泡)释放到突触裂隙中。这些小的化学分子在裂隙中迅速扩散,其中的一些与突触后细胞膜上的分子门结合,使这些特殊的门打开,且允许带电的粒子流入或流出突触后膜,以使跨膜的局域电位发生了变化。整个过程如下所示:
电-化学-电
一般说来,离子的流入或流出依赖于离子在神经元内外浓度的高低。通常,钠离子(Na+)在神经元内保持低浓度,而钾离子(K+)在神经元内保持高浓度。这是由细胞膜上特殊的分子泵来完成的。如果一个门开启,两种离子都能通过,那么钠离子将会流入,而钾离子将会流出。①
当没有峰电位时,神经元有一个跨膜的静息电位。这个电位一般是-70毫伏(指里面相对于外面),在胞体上一个正的电位变化(例如电位到达了-50毫伏)有可能使细胞发放;而一个负的电位变化完全阻止其发放。一个神经元是否能兴奋起来,以使它在轴突上产生一个峰电位,主要依赖于这些膜电位的变化(由位于树突和胞体上的兴奋性突触产生)能否引起轴突始端附近区域电位的变化。
让我们更仔细地看一看突触的结构,见图33所示。在皮层中它主要有两种类型,称之为1型或2型。在电子显微镜下可以清楚地将它们区分开。①一般他说,1型突触使接受神经元兴奋,而2型使其抑制。
在大脑中,大部分兴奋性突触不是直接位于树突的主干上,而是位于一些短小的侧枝上,见图34所示,这些侧枝称为棘(spine)。尽管有些棘上也有单个2型(抑制性)突触,但单个棘上从不会多于一个1型(兴奋性)突触。从图34中可以看到,一个棘有点像小烧瓶,它的颈被粘在树突上。棘有一个球形的头(通常稍有畸变)和细圆柱形的颈。突触本身位于其头部,并且在一定程度上与这个细胞在其他位置发生的活动相分离,突触有许多受体,其中也包括了离子门。如果神经递质的分子(来自于突触未端与棘头之间的突触裂隙)处于这种受体分子的某一特殊位置,就能打开离子门。
棘是一个相当精巧的结构,它的功能远未完全了解。我猜测棘是进化的关键产物,有了它,可以对输入信号进行更为复杂的处理。
我不想去描述神经元的脂肪膜上各种类型的蛋白质分子。其中一些分子能被递质分子激活,①它们被称为“受体”。在大脑的新皮层中,主要的兴奋性递质是一种相当普遍的称之为谷氨酸的小有机分子。(2)虽然离子通道仅有两种主要类型(一类仅对电压敏感,另一类仅对神经递质敏感),但最令人感兴趣的是第三类被称为“NMDA通道”的离于通道。③它对电压与谷氨酸都敏感,更精确他说,即便存在着谷氨酸,当局部的膜电位处于静息值,该离子通道很少打开的。如果膜电位升高(例如由于附近其他兴奋性突触的活动),那么谷氨酸可以打开这个通道。因此它仅对突触前的活动(由于轴突末端释放谷氨酸)与突触后的活动(由于其他的输入产生了跨膜电位的变化)的联合作用起反应。我们将会看到,这是脑功能的一个关键特性。
当NMDA谷氨酸通道打开时,不仅允许钠、钾离子通过,而且也有适量的钙离子(Ca2+)通过,这些流入的钙离子像是这样一种信息的出现,即它能引发复杂的化学连锁反应,目前对这类反应仅获得部分的了解,它最终的结果是改变了突触的连接强度,这种改变可能维持几天,几个星期,几个月,甚至更长的时间(这可能就构成了一种特殊记忆形式的基础――见第十三章 描述的赫布学习率)。我们现在可以从分子的水平来解释认知过程,例如记忆。一个实验的例子:用化学的方法阻断小鼠海马中的NMDA通道,小鼠不能记住它到过的地方。
抑制性突触的性质如何?是否存在这样的神经元,它的轴突的一些末梢产生兴奋性的作用,而另一些产生抑制性的作用?令人惊奇的是,在新皮层中从未或很少存在这种现象。更确切他讲,一个特定神经元轴突的所有末梢或都兴奋或都抑制,从未有两者并存的情况。上面提到,兴奋性突触的神经递质是谷氨酸,而抑制性突触的递质是相对较小的GABA分子(1)。在新皮质中,约有五分之一的神经元释放GABA递质(2)。
大多数突触传递是化学的而不是电的,这样一个事实就产生了重要的后果,即一些特殊的小分子在浓度非常低的情况下也阻断它。这就是为什么剂量只有150微克的LSD能引起幻觉的效果。这也能解释为什么一些药在一定条件下能缓减精神状态,例如沮丧,看上去是由于某些神经传递机制的功能衰退而引起的,例
如:安眠药中的化学物质结合了GABA受体,增强了GABA的抑制作用功能。这种突触抑制的增强有利于促进睡眠。镇静药利眠宁与安定也是苯二氮卓(benzodiazepine),有类似的功效。
在新皮层中,兴奋性与抑制性不是对称分布的,但一些理论模型假设它们是对称的。从皮层的一个区到另一个区的长距离连接只能通过锥体细胞来实现。这些细胞都是兴奋型的。大多数抑制性神经元的轴突较短,仅影响它附近的神经元。①没有任何两个形态结构类似的神经元(可能有极少数的例外),会产生一个是兴奋的,而另一个是抑制的现象。整个分布的非对称性至少表现在两个方面:一个方面是神经元不能发放负的峰电位,另一个方面产生兴奋或抑制的神经元属于不同的类。然而、所有的神经元都接受兴奋性或抑制性的输入,这可能为了防止神经元总处在静息状态或永不停息的发放状态。
在新皮层中主要有两类神经递质:兴奋性的谷氨酸递质(或相近的物质)和抑制性的GABA递质。遗憾的是,事情并不那么简单,存在着许多其他的神经递质。脑干中那些投射到皮层的神经元用5一羟色胺、去甲肾上腺素、多巴胺等为递质。脑中其他神经元用乙酰胆碱作为递质,约有五分之一的抑制性神经元在释放GABA的同时,也释放一种更大的有机分子――肽。这些递质大多数产生的效应要比两类主要的快速递质(谷氨酸和GABA)慢。它们通常用于调制细胞的发放强度,而不是直接使它发放。这些递质主要可能参与更一般的过程:例如保持皮层清醒,或者要记住什么,而不是参与大量复杂的信息快速处理过程。
不仅存在有多种神经递质(尽管只有两种神经递质完成了大部分工作),而且还有多种离子通道。至少有七种不同类型的钾离子通道,且大多数还是相当普遍的。②有些通道能迅速打开,有些则缓慢打开;有些通道一旦打开就迅速失去活性,有些则较缓慢关闭:有些通道主要传递轴突上的电脉冲,有些则在胞体与树突上产生更精细的效应。为了计算神经元对输入信号所产生确切的行为变化,我们需要知道这个神经元所有的离子通道分布与特性。
不同的神经元有不同的发放模式。有些神经元的发放非常快,有些则很慢;有些神经元发放单个脉冲,有些则倾向于发放一簇脉冲。在有些情况下,同一个神经元可以用以上两种方式中的任何一种发放,主要依赖于它的活动状态和当前的行为。动物在慢波睡眠(无梦的深度睡眠状态)与清醒状态时,神经元发放的模式是不一样的,主要的原因是脑干中的神经元对丘脑与新皮质产生了不同的影响。我们最终是需要更加深入地和更全面地了解各种类型神经元的信息处理过程。
从表面上看,神经元显得异常地简单,它对众多的输入信号的响应是通过沿着它的轴突发送出一串电脉冲。只有当我们试图准确地刻画它是怎样反应的,这种反应是怎样随时间而变化的,以及它又如何随着脑中其他部分的状态而变化的,这才真正遇到神经元内在的复杂性。显而易见、我们又需要理解这些化学及电过程是怎样进行相互作用的,然后需要去掉这些过程的具体细节,用一种近似、可操作的方式来处理它们。简而言之,我们就需要建立各类神经元的简化模型,它们既不能太复杂而难以操作,也不能大简单而忽略了它的重要的特性。这可谓说起来容易作起来难。单个神经元有点像个哑巴,它能用很巧妙的方式表达着它的意思。
神经元有一个相当明显的特性,这就是单个神经元具有不同的发放率,从某种角度来说,它具有不同的发放模式。尽管如此,在任何一段时间内,神经元只能发送出有限的信息。然而,神经元在这段时间内通过许许多多的突触而得到的潜在的信息是很大的。当我们孤立地看一个神经元时,这种输入与输出之间的转化过程必定要丢失信息的。然而这种信息的丢失可以用下面的方式得到补偿,即每个神经元对输入的特定组合的反应和传送出这新的信息形式,恰恰不是传送到一个地方,而是到许多地方。因此,由于单根轴突上有许多的分枝,沿着轴突下行传导的电脉冲是以相同的模式被分布在不同的突触上。一个神经元在它的某个突触上接收到的信息与其他许多神经元接收到的是一样的。所有这一切表明了:在某一时刻,我们不能仅仅单独考虑单个神经元,而必须考虑许多神经元综合的效果。
认识到这样一个事实是很重要的:一个神经元仅能简单地告知另一个神经元它的兴奋程度。①这些信号不给接受神经元其他的信息,例如:第一个神经元的位置等。②该信号中的信息通常与外部世界的某些活动相联系,例如,由眼睛光感受器接收的信号。
从感觉上讲,大脑所获得的通常是与外部世界或身体其他部分有关的信息。这就是为什么我们所看到的那些东西都位于我们的外部,尽管负责担任“看”的神经元位于脑中,对许多人来说,这是个根深蒂固的观念:“世界”位于他们的身体外,然而从另一种角度来看(他们所知道的),世界又完全位于他们的脑中。这对你的身体来说也是正确的,你对它所了解的不是附于你的头上,而是位于你的脑中。
当然,如果我们打开头骨把某个神经元发放的信号取出来,一般能判断该神经元的位置。但是我们所研究的大脑并不知道这种信息。这就解释了在正常情况下,为什么我们不能知道感知与思考发生在脑中的确切位置。不存在这样的神经元来编码这种信息。
回忆一下亚里斯多德认为这些过程都发生在心脏中,因为他既可以知道心脏的位置,又可观察到一些精神活动过程――例如
但这种传送速度大慢,以致不能携带快速的信息。恋爱中在行为上发生的变化。如果不借助特殊的仪器,我们就不能对人脑中的神经元做类似的实验。这些及其他的有关内容将在下一章 中介绍。
==========================
①我将会集中讨论在脊椎动物(像人类)所发现的“典型”的神经元,这些神经元在无脊椎动物中(例如昆虫)几乎没有什么区别。
①对人工神经网络说,信号可以沿着反方向传输,称为逆向。
①红细胞是例外。
②目前还不清楚它更精确的数目,但到2000年左右或许将会知道。
①它的体积比一个细菌的细胞如大肠杆菌(E.Coli)约大1000倍。
(1)这种解释是过于简化了,因为高子的流动还依赖于跨膜的电位差。
①1型突触具有圆形的囊泡,而2型的囊泡通常呈椭圆型或扁平状的,2型比1型更具对称性,且它的突触裂隙要小些。(l)有些仅对跨膜电压的变化有响应,有些仅当某些特殊的小分子――神经递质――与膜外的蛋白质相结合时有响应。有些蛋白质具有离于通道,它能迅速地打开,让离子通过去,有些不具有这些功能。它们在细胞内通过间接的方式产生慢效应,就是具有神秘色彩的第二信使。
②谷氨酸是构成蛋白质的二十种氨基酸中的一种,它有时被用来放在食物中以增加香味。
③这类受体的基因已被分离出来。
①主要有两类GABA受体,A型是一个快速的离子通道,它允许氯离子通过,D型受体速度较慢,是第二信使系统的通路。
②当成熟后,这种神经元在树突上很少或没有棘,它们的突触直接位于树突或胞体上。它们一般比具有棘的兴奋性神经元发放更快。有几种相当不同类型的抑制性神经元,但详细地描述它们已超出了本书的范围。
①有一种“篮状细胞”,能在某个皮层区内有相当长的抑制性连接。
②例如.一个称IC的钾离子通道,能被钙离子的内部浓度激活。
①除了编码平均发放率外,发放模式中也可能包含另一些信息。
②神经元能够沿着轴突发送化学信号。在一些情况下,它们能传递额外的一些信息,
第九章 几类实验
“研究是一门艺术,即如何设计一些方案去解决那些难题的艺术。”
――彼得?梅达沃爵士(Sir Peter Medwar)
严格他说,每个人所能确信的只是他自己是有意识的。比如说,我知道我是有意识的。在我看来你的行为举止与我很相似,特别是你使我相信你是有意识的,故而我很有把握地推断你也是有意识的。倘若我对自己的意识的本质感兴趣的话,我就不必仅仅把研究局限在自己身上,而完全可以在别人身上做实验,只要他们不是处于昏迷状态。
要揭示意识的神经机制仅仅靠对清醒的受试者进行的心理学实验是不够的。我们还必须研究人脑中的神经细胞、分子以及它们之间的相互作用。我们可以从死者的脑中获得关于脑结构的大部分信息。但要研究神经细胞的复杂行为,则必须在活体上做实验。实验本身并不存在什么难以克服的技术问题。更多的是由于伦理道德方面的考虑使得许多这样一类实验变得不可能,或是十分困难。
大多数人并不反对在他们的头皮上放置电极来测量脑电波。但是为了直接把电极插入活体脑组织而要移去部分头骨,即便这只是暂时的,也是众人所不能接受的。即便有人甘愿为了科学发现而接受开颅实验的话,也不会有医生同意实施这种手术。他会说这是违背其希波克拉底誓言的,或者更有可能说会有人为此而控告他。在我们这个社会里,人们会自愿参军并不惜受伤甚至牺牲,却未必会愿意仅仅为了获取科学知识而接受那些有危险性的实验。
有少数勇敢的研究者在他们自己身上做实验。英国生物化学和遗传学家霍尔丹(J.B。S.Haldane)就是一个著名的例子。他甚至写了一篇关于这方面的文章,名为《作自己的实验兔子》(On Being One’s Own Rabbit),此外还有一些医药史上令人传颂的故事,如罗纳德?罗斯爵士(Sir Ronald Ross)在自己身上证明蚊子传播疟疾。但除此以外,为那些可能有助于满足科学好奇心的实验去充当受试者,这是不被鼓励的,甚至是被禁止的。
在某些情况下,必需对一些病人在清醒状态下做脑部手术。这样,如果病人同意,便可在裸露的脑做一些很有限的实验。由于脑中没有痛觉感受器,病人不会因为裸露的脑的表面受到轻微电刺激而感到不适。遗憾的是,在手术中可供做实验的时间通常很短,而且也很少有神经外科医生出于对脑的细微工作感兴趣而进行这种尝试。这种研究是在本世纪中期由加拿大神经外科医生怀尔德.彭菲尔德(wilder Penfield)开创的。近一个时期西雅图的华盛顿大学医学院的乔治?奥杰曼(George Ojemann)领导进行了该领域的研究。他用短暂的刺激电流抑制电极附近的一小块区域内神经元的活动。如果电流足够微弱,去掉后并不会造成永久的影响。他将精力集中在与语言有关的皮层区域;这是因为当他切去患者的部分大脑皮层以降低他们癫痫病发作的可能性时,他希望尽可能少地使邻近的语言区受到损伤。
奥杰曼有一个实验结果很出名。患者自幼会讲英语和希腊语。当大脑左侧新皮层表面的一些区域受到电刺激时,她暂时无法使用某些英语词汇,但这并不影响她使用相应的希腊语,刺激其他部位则会出现相反的情况,这表明两种语言的某些特征在脑中的定位有显著的差异。
***
在大多数情况下,我们只能从头骨外研究人脑的行为活动。①现在已有多种不同的扫描方法可以获得活体脑的影像,但它们在空间或时间分辨率上都有很大的局限性。大多数方法过于昂贵,并且出于医学上的考虑被限制使用。
因此,神经科学家们优先选择在动物身上做实验便不足为怪了。虽然我并不确信一只猴子也像你一样有意识(consciousness),但我有理由认为它并非完全是一个自动机,即那种行为复杂但完全缺乏觉知(awareness)的机器。这并不是说猴子与人一样具有自我觉知(self-awareness)。一些实验,如镜中识别的实验等,表明某些类人猿(如黑猩猩),可能具有一定程度的自我觉知。而对猴子而言,即便有自我觉知,那也很少。但仍有理由大胆断言猴子具有一种与人类相似的视觉意识,只不过它无法用语言来表达而已。
例如,可以训练猕猴让它鉴别两种非常相近的颜色。这些实验表明,猕猴的表现与我们人类是可以相比的,大约在2倍以内。而对于主要在夜间活动的猫则远非如此,大老鼠则相差更大。由于黑猩猩和大猩猩过于昂贵,很少用它们做伤害性实验,如果我们主要关心的是哺乳动物脑中的分子特征,那么作为实验动物大老鼠和小白鼠是最好又是最便宜的。虽然它们的脑的特征在许多方面比人类要简单,但是脑的分子却可能与我们非常类似。
用猴子和其他哺乳动物而不用人做实验还有个优越之处,即目前它们更适于用来进行神经解剖学研究。原因很简单。几乎所有现代的关于脑中长程连接的研究方法部利用了神经元中分子的上行和下行的主动运输。为此需要把某种化学物质注射到动物活体脑中的某个部位。该物质在脑中沿着神经元之间的连接被运送到与注射点直接相连的脑的其他部位。这一过程通常需要几天时间。此后,实验动物将被无痛苦地杀死,并检测注射物质所到达的部位。用人做这种实验显然是不可能的,由于这种局限使得我们对猕猴脑的长程连接的了解远比对我们自己的了解丰富得多。
人们或许认为,这种知识上的明显的空白会使神经解剖学家忧心忡忡;由于人脑与猕猴的脑并不完全相同,他们会特别要求研究人体神经解剖学的新方法,然而事实并非如此。其实,现在是改变我们在人体神经解剖学上的缺陷的时候了,那些有远见的基金会应当立即着手从事有关的新技术的发明。
即使我们设计出可以在人身上进行神经解剖学研究的新方法,仍有许多关键性实验只能在动物身上进行。这些实验有时会持续几个月。尽管大多数实验没有什么痛苦,或只有很少的痛苦,但实验结束后常常需要把实验动物杀死(仍旧是无痛苦的)。动物保护组织坚持要求善待实验动物,这无疑是对的。由于他们的努力,实验室中的动物现在得到的照顾比以前要好一些,但是,倘若把动物理想化,那就太多愁善感了。与被捕捉的动物的生活相比,野生的食肉和食草动物通常过着严酷的生活,寿命也较短。有一种观点宣称由于人和动物都是“自然的一部分”,因而应当完全平等地对待他们。这是没有道理的。难道一只大猩猩真的应当享受大学教育吗?一味坚持完全像对待人类那样对待动物,这种说法贬低了我们人类所独有的能力。动物应当受到人道的待遇,但若将它们置于同人平等的地位,那则是一种扭曲的价值观。
作为神经解剖学和神经生理学的实验对象,猴子有什么局限性呢?训练机灵的猴子完成一些简单的心理学测试是可能的,但这很费力。有个实验要求猕猴保持凝视(即注视同一点)。当它看到水平线段时按动某一控制杆,而看到垂直线段时按动另一控制杆。这样的训练通常需要几周甚至更长的时间。而让大学毕业生来做这个实验则多么简单!此外,人作为受试者可以用语言来描述他们所看见的一切。他们还能告诉我们他们所想像到的或是梦见的情景。而要从猴子身上得到这种信息则几乎是不可能的。
看来只有一种策略是可行的。这就是分别在人和动物上做某些不同类型的实验。这需要假设猴子的脑与人脑的相似程度(以及差异性),但这尚有一定的风险。没有风险就不能取得大的进展。因此,我们既要大胆地按此方法进行研究,又应足够谨慎,尽可能地经常检查我们的假设是否合理。
研究脑波的一种最古老的方法是脑电图(EEG)。它将一个或多个粗电极直接放在头皮上。脑中有大量的电活动信号,但是头骨的电学特性干扰了对电信号的提取。单个电极将提取多至上千万个神经元产生的电场信号,因而单个神经元对电极贡献的信号淹没在它临近的大量神经元的活动中。这就好像试图从1000英尺高度上研究城市中人们的谈话一样。你能听到足球赛场中人们的叫喊声,却无法判断那里人们用何种语言交谈。
脑电图最大的优越性在于时间分辨率相当高,大致在1毫秒左右。这样便可相当好地记录到脑波的上升和下降。人们尚不太清楚这些波意味着什么。处于清醒状态与处于慢波睡眠状态的脑波有非常显著的差异。快速眼动睡眠时的脑波与清醒时很相似。因而它又有个别称――反常睡眠,即人处于睡眠状态,但他的脑看上去却是清醒的。我们的梦幻大多出现在睡眠的这一阶段。
有一种常用的记录脑波的技术是在某种感觉输入(如耳听到的一声尖锐的卡搭声)之后立刻记录。与背景的电噪声相比,由刺激引起的反应通常很小(即信噪比很低)。因此,从单独一次反应中几乎看不出什么,实验必须重复多次,并以每次事件的开始作为基准对所有信号进行平均。因为噪声总是被平均掉,所以这样可以提高信噪比,并通常可得到一条可完全重复的典型的脑电波曲线,它是与脑的活动相关联的。例如,反应中常存在着一个被称为P300的尖峰,其中P表示正电位,300代表给刺激信号与尖峰之间有300毫秒的时间间隔(见图35)。它通常与某些令人吃惊并需要注意的事件有关。我猜测它大致是从脑干传向记忆该(刺激)事件的高层脑区的一种信号。
遗憾的是,要确定产生这种事件相关电位的神经活动的位置是件困难的事。问题在于,如果我们知道每个神经元的电活动,从数学上讲就能计算出放置在头皮上任意位置的电极上的效果。反之,从电极上得到的电活动却无法计算出脑中所有部位的电活动。从理论上讲,可以在头皮上产生同样的信号的脑活动分布几乎有无穷多种。尽管如此,即便我们不可能恢复出神经活动的全部细节,但仍希望对大部分这些活动发生的部位有所了解。通过在整个头皮上放置一定数目的电极,我们可以对大部分神经活动的定位有较好的了解。如果一个电极记录到较大的信号而其他电极的信号都较小,那么大部分神经活动可能发生在记录到大信号的电极附近。遗憾的是,实验中情况要复杂得多(1)。
从这些事件相关电位中能获得一些很有限但非常有用的信息。举例子说,皮层的听觉部分主要位于脑的颞叶附近。如果一个人生来就是全聋的话,那里的情形会是怎样的呢?有一项研究选择了那些双亲也是耳聋的聋人。这样几乎可以肯定他们的天生
的缺陷是遗传引起的,该缺陷可能是在于耳的构造上而不是在脑中。心理学家海伦?内维尔(Helen Neville)和她的同事们通过观察事件相关电位发现,这些患者对视野外周信号的某些反应与听觉正常者相比有一个大得多的尖峰(延迟时间大约150毫秒)。这些增强现象出现在通常与听觉有关的前颞叶及额叶的一部分。
人们对这种由来自视野外周的信号引起的增强反应并不感到惊奇,因为当聋人相互打手势时,他们的目光主要固定在打手势者的眼睛和脸上。因此,大部分手势信息来自凝视中心的边缘区域。作为对照,内维尔还研究了那些双亲耳聋但本身听觉正常且学习过美国手语的受试者。他们并没有像天生耳聋的被试者所表现出的神经活动的增强现象。这表明学习美国手语并不能引起上述的增强效果。
内维尔推测,因为完全耳聋者缺乏正常的与声音有关的神经活动,在脑的发育过程中部分视觉系统通过某种方式取代了部分听觉系统。对于具有听觉的人,可能是正常的听觉输入阻止了任何视觉区域取代皮层的听觉区域。目前的动物实验表明这种想法是有道理的。
一种近代技术研究了脑产生的变化的磁场。这种磁场极为微弱,仅为地磁场的极小一部分。因此,使用了一种称为squids(超导量子相干装置,superting quantuminterference devices的缩写)的特殊检测器,并小心地把环境中变化的磁场屏蔽掉,使得整套装置不受干扰。最初仅使用了一个squids,但现在使用一组共37个这种探头。它通常比脑电图具有更好的空间定域性。此外,它的优越性和局限性都与电场相似,只是头骨对磁信号的干扰要小得多。磁探头所响应的偶极子源垂直于产生脑电图的电偶极子,因而能检测到脑电图所丢掉的信号。反之亦然。
虽然squids探头并不便宜,但进行研究脑波的实验并不十分昂贵。而其他主要扫描方法不仅需要昂贵的仪器,运行的开销也很大。这些扫描设备数目极少,并几乎都归医学机构所有。它们每次只能产生脑的一个片层的活动影像。因而要覆盖某个人们感兴趣的区域,通常需要好几个片层的成像。
大致来说扫描技术有两种,分别探测脑的静态结构和动态活动。最早的一种技术称为CAT扫描,即计算机辅助X射线断层照相,它利用了调射线,一种较现代的技术――磁共振成像技术(MRI),能产生极好的高分辨率图像。就目前所知,它对实验者的脑不产生伤害。通常的使用中,它记录质子(即氢原子核)的密度,因而对水特别敏感。它得到的图像具有很好的对比度,但该图像是静态的,并不记录脑的活动(见图36)。除此之外,两种方法都清晰地呈现出不同的大脑之间的大致结构的差异。在各自适合的环境下,两种方法均能探测到脑受到打击、枪伤等伤害引起的结构损伤。只不过不同的技术所容易探测到的伤害的种类各不相同。采用一种特殊技术之后,MRI扫描可以产生活体人脑的三维重建,包括外观。图37是神经哲学家帕特丽夏.丘奇兰德的脑的一个侧面。
正电子发射X射线断层照相术(PET)是一种不同的方法。它可以记录脑的局部活动,但记录的是这些活动在大约一分钟左右时间内的平均值。实验者被注射一种无害的放射性原子(如15O)标记过的化学物质,通常是水。该放射性原子在衰变时会发射一个正电子。①被标记过的水进入血液。15O的半衰期很短,这意味
着它从回旋加速器产生到注射人体内必须在很短的时间内完成。但它有两个优点:氧衰变非常快,因而大约十分钟以后就可做第二次实验;放射性物质寿命很短,这意味着为了取得所需信号而使实验者所受的辐射总剂量非常少,造成的伤害是可以忽略的。因而该方法可以用于健康的志愿者,而不必仅限于体弱的病人。
当脑中一部分的神经活动比平时加强时,供给它的血液也增加。实际上,计算机生成的图像对应于扫描得到的各个部分脑区的血流水平。其他的实验扫描了处于控制状态被试者的情况。两幅图之间的差异与脑处在被刺激状态和控制状态时神经活动的变化是大体一致的。
这项技术已经得到了大量有趣而又具有挑战性的结果。特别值得一提的是圣路易斯的华盛顿大学医学院马库斯?雷克尔(Mar-cus Raichle)所领导的研究小组。在早期的实验中他们研究了对一小组视觉模式的反应。这些模式是经过选择的,可以在皮层的不同的、相当宽的区域中产生最大反应。在新皮层的初级视觉区域的血流变化与通过早期对人脑的损伤研究中所预料的结果大致相同。此外还发现皮层其他视觉区域的血流也有变化,但它们是否有价值目前尚不清楚。
他们最近研究了被称为“斯特鲁普干扰效应”(Stroop interfer-ence effect)时血流的变化。这是一种更复杂的视觉任务。在实验中要求被试者尽可能快地识别一个单词的颜色。比如说,被捕捉的目标可能是用绿色印刷的红色这个词。词的颜色(绿色)与词义(红色)之间的差异会引起被试者反应时间增加。将这种任务下的血流分布与另一种直接情况(即单词红色被印成红颜色)相比较,他们发现,在斯特鲁普(Stroop)条件下,有几个皮层区域出现了血流增加的现象,其中增长最大的区域是“右前扣带回”,它在脑的中部,靠近额部。他们认为这与完成任务所需注意的程度有关。他们由此得出结论:“这些资料表明,前扣带回参与了下述的一种选择性过程:即,以先前形成的一些内部的有意识的计划为基础,在这两种情况中进行竞争性的交替处理。”我感觉这种说法更接近于我们考虑的自由意志,而不是通常意义下的注意(见本书末尾的附言)。很显然,我们需要更多地了解有关的不同处理过程的神经机制。
PET扫描可以获得一些其他方法很难得到的结果,但它也有若干局限性。除了昂贵以外,其空间分辨率并不很高(虽然它也随多数现代仪器一起逐步改进),目前通常大约为8毫米。它的另一个不足之处是时间分辨率相当差。为了获得好的信号需要大约一分钟,而EEG的工作在毫秒范围。
一些居主导地位的研究中心目前把PET扫描与MRI扫描二者结合使用。PET记录脑的活动,而MRI得到脑的结构,这样便可把PET扫描结果影射到同一个人的脑上,而不是像过去做的那样影射到一个“平均”的脑上去。然而,不久对这些结果的解释就会遇到上述由于缺乏详尽的神经解剖学知识而产生的局限。
现在又发展出一些使用MRI扫描的新方法。其中一种方法对类脂化合物特别敏感。扫描得到的图像可以用来帮助定位某个人的一些不同的皮层区域(不同人的这些区域的准确位置有所不同)。这是由于某些皮层比其他部位具有更多的有髓鞘的轴突,含有更多的类脂。
其他一些新的MRl方法试图探测各种新陈代谢及其他脑活动,而不仅仅探测其静态结构,但它们的信噪比似乎都比常规的MRl低。因而人们期待看到这些新方法的发展。
关于人脑的研究就先叙述到这里。有什么方法可以观察到动物脑中神经元的行为呢?有一种方法是用较细的电极获取最为详细的信息。这是一根尖端暴露的绝缘导线。将动物麻醉后,移去部分头骨,并将电极正好放置在神经组织内。由于脑中没有痛觉感受器,因而该电极并不会使动物感到痛苦。只要微电极的尖端离某个细胞非常近,它就可以在该细胞外探测到它在什么时候发放。它还能收集从较远的细胞传来的较为微弱的信号。将电极尖端沿它的长度方向在组织内移动,就可以一个接一个地检测神经细胞的活动,实验者可以选择将电极置于动物脑中的位置,但从某种意义上说他记录的究竟是哪种类型的细胞完全要看运气了。现在人们常使用一组电极进行记录,这样就可以同时探测不止一个神经元的活动。
另一种技术是对从动物脑中得到的神经组织的一层很薄的切片进行研究。在这里使用的电极是一种非常小的玻璃管,它的尖端逐渐变细。小心地放置电极使它的尖端刚好在一个神经细胞内部。这样可以得到关于该神经元的活动的更为详细的信息。(这项技术也可用于麻醉的动物而不会损伤其脑部,但用在清醒的动物则要困难得多。)如果浸泡在合适的培养液中,脑片能维持许多小时。在脑片中很容易灌流不同的化学物质来考察它们对神经元行为的影响。
在某种情况下,从非常年幼的动物的脑中提取的神经元能够在碟子中生长并向四周扩展。这样的神经元在生长时会与周围临近的神经元接触,这种条件与活着的动物体的环境相差更远,但它可以用来研究神经元内部连接的基本行为。这些连接的膜上有通道。当通道打开时,允许带电原子(即离子)流过。
最令人吃惊的可能是当前有可能研究单个离子通道中单个分子的行为。这是通过一项称为“膜片钳”技术实现的。欧文?内尔(Erwin Neher)和伯特?萨克曼(Bert Sakinann)因为发展并应用这项技术而荣获1991年诺贝尔奖,他们使用了一种小型玻璃吸液管,它具有一个特殊的倾斜尖端,直径约12微米,能从类脂膜中吸起其中的一小片。如果运气好的话,这小片中至少会包括一个离子通道。经过电放大器及记录装置可对穿过该膜的电流进行研究。在这小片膜的两侧相关离子的浓度保持着不同的值。当通道打开时,即使只有很短暂的时间,也有大量带电离子奔涌穿过。这种汹涌的离子潮产生了可测量的电流。即使只打开一个通道也是如此。这样人们便可研究神经递质及其他药物制剂(通常为其他的一些小的有机分子)的效果,以及膜电压的作用。
膜片钳也被用来进行另一项关于离子通道的研究。该通道的基因被人工引人到未受精的蛙卵中。在这些外来基因的引导下,卵母细胞(即未受精卵)会合成这种通道的蛋白并将其放置于外膜。这样就可以利用膜片钳将它吸取出来。这种技术对于发现某种特别的离子通道的基因很有帮助。
现在作一总结,目前有许多种方法研究人和动物的脑。其中一些方法从头颅的外面进行研究,另外一些方法则直接深入脑的内部。所有的方法都有这样或那样的局限性,或者是时间分辨率或空间分辨率不足,或者过于昂贵。有些结果非常容易解释,但仅能提供相当有限的信息;另外一些测量做起来很容易,结果却很难解释。我们只有综合不同的方法才有希望解开大脑的奥秘。
==============================
①在极少数情况下,出于医学原因必须在脑组织中很深地植入永久性电极。但植入的电极数量很少,故能得到的信息也十分有限。
①目前常用的一种近似方法是假设脑中存在四个中心产生大部分这些电活动。这样,通过数学手段有可能求出这些中心的大致位置。有一种方法用来检验这种假设的有效性,即假设存在五个中心并重复上述计算。如果得到的四个中心很强而另一个非常弱,那么四个中心的近似就可能是相当有效的。即便如此,这也仅仅是一个有根据的猜测罢了。
①正电子在与电子结合以前会漫游一小段距离。结合后,两个粒于都湮灭,它们的质量转变成辐射,成为按几乎相反方向运动的两束了射线。记录这些γ粒子的是一个环状的相干计数器。有一台计算机综合处理所有衰变的痕迹,并分析出最可能产生这些γ射线的区域。
第十章 灵长类的初级视觉系统
“我眯起一只眼睛偷偷地看,事情原来是这样……”
――儿童游戏
“看”本身是一个相当复杂的过程。因此,脑中的视觉部分并不那么简单也就不足为奇了。它们是由一个庞大的初级系统、次级系统和许多更高级系统构成。各个系统都要接受来自于上百万个神经元的输入。这些神经元位于眼睛的后部,称之为神经节细胞。初级系统通过丘脑的侧膝体与新皮层相连接。次级系统要投射到前面提及的四叠体上丘。
眼睛的一般结构如图38所示,它具有一个可自由调焦的晶状体,至少对四十五岁以下的人是可以自由调节。还有可改变孔径大小的瞳孔。在较强的光照下,孔径就会变小。晶状体把视场内的图像聚焦到位于眼睛后部的一片细胞之上,这薄薄的层称为视网膜。在其中一层上有四种不同的光感受器,它们对于入射的光量子有响应。由各自的形状取之名,如,视杆细胞和三种视锥细胞。每只眼睛里视杆细胞的数量超过十亿,它们对于微弱的光有响应,且仅有一种类型。视锥细胞的数目约有七百万,它对强光有响应,且具有三种类型,每种对入射光的不同波长范围有响应。正因为这样,我们才能看到不同颜色。这一点在第四章 中已作过介绍。
当输入信息经过视网膜时,需进行第一步加工,事实上,视网膜本身就是脑极其微小的一部分,与新皮层相比研究它就更容易些。美国生理学家约翰?道林(John Dewling)把它称为通往脑的窗口。它也许就是能够完完全全了解脊椎动物脑的第一步。尽管它的结构也许是很值得研究的,但我仍把它看作一个“黑箱”,并仅仅介绍有关它的输入与输出之间的关系。所谓输入就是指射入眼睛的光线,而输出就是指神经节细胞的发放。①
用于明视觉或日间视觉的锥体细胞在眼睛中央凹附近的分布密度极高。因此,我们才能够看到极其微小的细节。这也就是当你为了看清楚某个感兴趣的东西时,你就会注视它的原因。与此相反,当你在黑暗中能够把某个物体看得清楚,这正是由于视网膜上具有很多的视杆细胞。
眼睛以不同方式移动,它可以跳跃或移动,称为扫视,一般每秒钟为3-4次。灵长类动物的眼睛可以跟踪某个运动目标,这是一个“平滑追踪”的过程。令人难以理解的是当你要使你的眼睛沿着静止的场景做平滑移动时,这几乎是不可能的,如果你一定要试图这样做时,你的眼睛将会做跳跃式的移动,还可以做各种连续的微小移动。不管用什么办法使视网膜上的图像完全保持平稳,那么在1-2秒钟后这种视感觉依然会消失。(这个问题将在十五章作更加详尽的讨论。)
把信号从眼睛传送到大脑的细胞称为神经节细胞。任何一个特定的神经节细胞只能对视场中某一特定位置上的小光点开启与关闭有响应,见图39所示。由于晶状体把这个光点聚焦到视网膜上该神经节附近的地方,因此它一定要在那个特定的位置上。但这也依赖于眼睛聚焦点的位置。(就像在照相机中,底片上某一特定点的反应既与它在底片上的位置有关,还与照相机聚焦的方向有关。)视场中能够对一个单细胞活动产生影响的区域称之为感受野。
在完全黑暗时,神经节细胞的发放常常是很低且无规则的。这种发放称为背景发放率。有一类神经节细胞叫做ON中心型,即当一个光点投射到感受野中心时,它的发放骤然增加。在这个小的中心以外,围绕它们有一个圆形范围。在这个区域上,如果同样用小光点刺激它时,则发生与之相反的作用。如果光点完全落在环形区域上,则背景发放就完全停止。而当撤光点时,将有一丛脉冲发放(见图39左侧)。
假定视网膜上放置各种大小的光点,使它们的中心位于该细胞感受野的中间区域,正如我们所见,当用小光点刺激时,该细胞就强烈发放,而光点的直径越大其响应越小。当这个光点大到足以覆盖中心及围绕它的环形区域时,则该细胞根本就不发放了。换句话说,感受野中心区域的响应与周边是相反的,这就意味着任何一个特定神经节细胞对在恰当位置上的光点刺激具有强脉冲发放,而对其整个区域的均匀光刺激并没有响应。视网膜就是要去掉部分传入眼睛里的冗余信息。它传送到脑中的正是在视野中的感兴趣的信息,在那里光分布是不均匀的,而要忽略的正是几乎不变的部分。
与ON中心型细胞数目差不多的另一类细胞是OFF中心型细胞:大略地讲,它们与第一类细胞性质正好相反,即当在感受野中心把光点撤走时,它会有强烈的发放(见图39右图)。这就说明了许多神经元相当一般的性质,即它们可以把这些峰电位下行传送到轴突、一个神经元不会产生负向的峰电位。那么,它们又怎样传输负信号呢、在丘脑或皮层中要找出一个快的背景发放率,比如说200赫兹,这是相当不容易的。如果这样一类细胞存在的话,通过增加其发放率到400赫兹,则产生一个正的响应,通过降低其发放率至零则产生一个负的响应。通常,替代这种神经元的有另外两类相当类似的神经元,它们都具有很低的背景发放率,一类是当某一参数增加产生发放,另一类则对其减少而有响应。当没有施加任何刺激时,神经元通常也不作出任何反应,更不是200赫兹,这大概是为了保存能量。
如果大脑要传送在某点按正弦形变化的神经活动,那么当信号为正的时候则某个神经元发放,当它为负时,则另一个神经元发放。但需告诫的是不能用太简单的数学函数去描述所发生的一切:,而且,一个真实的神经元常常对输入的突然变化以初始阶段的一丛发放作出响应。而这种时间上的发放模式随神经元而各异,神经元并不是按照数学家的便利而进化的。
神经节细胞的感受野大小是相当不同的。位于眼睛中心区域的要比外周的感受野要小。节细胞之间相对讲相距是比较近的,因此,它们的感受野是相互重叠的,在视网膜上一个光点通常会引起一组相邻神经节细胞的兴奋,即便它们发放程度并不一样。
神经节细胞并不仅仅只有两种主要类型,即ON中心或OFF中心。它们实际上还有好多类别,且每类又包含有其亚型,在哺乳动物中这样的分类方法在各物种间也稍有不同,对于猕猴来说,有两个主要分类,①有时称为M细胞和P细胞(M细胞是指Magno,意思为大;P细胞是指Parvo,意思为小)。人眼的神经节细胞与其极为相似。在视网膜的任何地方,M细胞都比P细胞大,而且也具有大的感受野。它们还具有粗厚的轴突,这就使信号的传导速度加快。同时,M细胞对光强分布中的微小差别敏感,因此它能够很好地处理低对比度。但是它们的发放率在高对比度时会达到饱和,它们主要用于对视觉场景中的变化发出信号。
P细胞的数量更多,与多数M细胞相比它们的反应具有更好的线性,即正比于输入。而且它们对细节、高反差及颜色更感兴趣。例如P细胞感受野的中心对绿色波长反应很强,但与环绕中心的外周区对红色波长更敏感。正是由于这个原因,中心与外周具有对不同颜色光的敏感性,则可以把P细胞分成几类亚型,每种亚型对不同颜色的反差有敏感。在这里,我们再次看到,视网膜不仅只是传输落到光感受器上的原始信息,实际上,它已经开始通过多种方式对信息进行处理。
神经节细胞主要包括M细胞和P细胞,每一类都具有ON中心和OFF中心的感受野,它们通过轴突将信号传导到丘脑的侧膝体,然后再将信息传输到新皮层。而且,视网膜也还要将信号投射到上丘(Superior Colliculus),但P细胞并不投射到那里,尽管一些M细胞和其他各种非主要类型的细胞可以投射到上丘。由于缺乏P细胞的输入,上丘是色盲的。
***
在大多数脊推动物中,右眼的神经节细胞几乎全部投射到左脑的视顶盖(大致相当于哺乳动物上丘),而左眼与此相反。在灵长类动物中,各种投射更加复杂些。每只眼睛投射到大脑的两侧,但脑的左中侧仅接受与视野中右半部分有关的输人。
因此,用你右眼中央凹看到的东西,被送到左边的侧膝体,然后再达到左边的视皮层,见图40所示,并且也可以到达左边的四叠体上丘。当然,正常的大脑两半球通过几处神经纤维束相互联系在一起,最大的纤维束是胼胝体。如果出于医学的原因,把它切掉(这在第十二章 将会讨论),这个人的左脑只看视野中的右边的部分,右脑只看到视野中的左边,这会产生某些令人很奇怪的结果,几乎就好像有两个人在一个脑里。
让我们先扼要地介绍一下投射到上丘的次级系统。这是低等脊椎动物(如蟾蜍)主要的视觉系统;对哺乳动物,它的许多功能已被新皮层等完成,而其余的主要功能似乎如眼动的控制,也可能还包括视觉注意的一些方面。
上丘是一个分层结构,主要有三层,称之为上中下。上层接收来自视网膜的各种输入,同时也接收来自听觉系统和其他传感系统的输入。各种输入具有粗略的映射关系,尽管这种映射的细节物种各异。下层的输入就更具多样性了。
很重要的一点是下层中的一些神经元与大脑对侧的上丘相连接,这条通路被称为顶盖间连合(它在第十二章 描述的裂脑手术中保持完好)。下层的神经元也连接到脑干上的神经元,控制着眼或颈部的肌肉活动。
这些神经元具有什么样的特性呢?上层中的许多细胞对运动具有选择性。在猕猴中它们是色盲的,即对人射光的波长没有选择性。它们对微弱的刺激很感兴趣,但对刺激的细节不怎么敏感。不管是给光或撤光,它们对光的变化都会作出瞬时性反应。这些大概都是无意识的注意产生的关键。它们发出类似于“注意!有什么东西在那儿”的信号。
任何作过演讲的人可能有这样的经验,当突然发生变化时,例如,演讲者的左边或右边的门打开了,所有的听众的眼睛同时朝向那个方向,这种即刻的反应在很大程度上是无意识的。我认为上丘是产生这类眼动的主要因素。
眼睛究竟怎样知道该往哪里跳跃呢?这就要感谢戴维?斯帕克斯(David Sparks)、戴维?罗宾逊(David Robinson)和其他一些人设计的精巧实验。现在我们对眼动有更好的了解。其实上丘的上层也许可以看作感觉的投射,中间与下层对应于运动系统的投射。在这些区域中,神经元的发放对眼睛变化的方向与振幅进行编码,以便使眼睛以跳跃的方式跟随靶目标。在跳跃之前那一霎那这个信号或多或少是与眼睛的位置无关。这个信号被送到脑干以决定需要作出多大且在什么方向上的跳跃。
这种信号并不能用工程师所猜测的那种方式来表达。一个神经元也许对特定的跳跃方向编码,而它的发放率可能对跳跃的距离进行编码。因此,用这种方法,一个神经元的小集合就可以对所有的方向和距离编码。另一种方法是每个神经元就可以对跳跃的向量,即方向和距离进行编码。实际上并不是这样的。为了产生一个跳跃,上丘中一片神经元就开始快速发放。从广义上讲,它是确定跳跃向量的运动映射图的活动中心。这样一个特定的上丘神经元也许参加到许多极为不同的跳跃中。正是这些激活的神经元作为一个整体以便确定跳跃向量特性。简言之,一次眼动都将受到许多神经元的控制。①
眼动的速度究竟由什么来控制呢?这可能与激活区域内神经元的发放率有关。它们发放得越强,眼睛移动得也越快。因此,最终的跳跃方向不仅依赖于有关的神经元发放有多么快,而且还依赖于这群活动的神经元的有效中心在运动系统定位图上的位置。
你可能会发现这种排列方式很独特,但它是个极好的例子,可以说明一群神经元怎样对相关的参数,如:眼动的速度与方向进行编码的。它的优点是如果一些神经元不参与活动了,整个系统也不会停止工作,没有一个工程师能够设计出这样一个系统,除非他已经了解脑是怎样工作的。当这些信号到达脑干时,必须以不同的信号集合去传递,以便控制眼睛的肌肉。究竟怎样恰当地做到这一点还待进一步研究。
现在让我们考虑通过侧膝体投射到视皮层的初级视觉系统。侧膝体是丘脑的一小部分。当我1976年去索尔克研究所,我继承了属于已故的布鲁诺?布鲁诺夫斯基(BrunoBronowski,电视连续剧“The Ascent of man”的制作者)可以鸟瞰海洋的办公室,和一个两倍于真实脑的彩色塑料模型。我开始着手干的就是找出侧膝体在模型上的位置。我很容易地找到丘脑,但花了好多时间才找到了一个上面标着侧膝体的小突起,但,这也没有什么可惊讶的,因为它只不过是由150万个神经元构成的。
了解侧膝体需要抓住两点,第一点,它仅仅是一个中转站。第二点则与前一点相反,它还干了许多到目前为止我们还未曾了解到的更加复杂的工作。
侧膝体中为主的神经元是主细胞(principal Cell),它产生兴奋性反应。此外,还有一小部分具有GABA受体的抑制性细胞。侧膝体被称为中转站有解剖上和生理上的两个原因。主细胞直接接收来自视网膜的输入,并且经轴突传送到皮层V1区,这条通路上再没有其他神经元。因此,称其为“中转站”。这些轴突很少有侧枝连接到其他主细胞上或侧膝体的其他部分。换句话说,这些神经元倾向于保持孤立而不愿与同伴进行交流。另外,视网膜的输入被映射到侧膝体,以使侧膝体上每一层对来自视野的映射稍有畸变。侧膝体的神经元的感受野比视网膜细胞的要大一些,且二者间是极其相似的。乍看起来,侧膝体仅仅是把视网膜接收的信息原原本本地传递到视皮层。
“MAP”这个词在视觉系统中有两种稍稍不同的解释。它的一般意思来源于那些在供体中相距不太远的神经元,直连接到受体域中彼此靠近的轴突的终点。这就要在接受域中产生供给域的粗略的映射。更严格的意思是指“视网膜映射”,在某一特定的视域中彼此相邻近的神经元趋向于对视网膜上相邻点上的活动反应,也就是将视网膜上相邻点从视域上三维信息转换成二维投射。当对视觉系统更高层次作进一步探索时,视网膜映射由于许许多多步的近似映射会越来越变得杂乱无章。但是,从一个区域到下一个区域的映射仍然保存得相当完好。
猕猴的侧膝体共有六层,见图41所示,其中两层是由大细胞(称之Magno cellular)构成的,它们分别接收右眼或左眼的输入,但彼此间却几乎没有什么相互作用。而且输入主要来自视网膜的M细胞。很自然也会联想到视网膜的P细胞也是按照类似的方式投射到另外两层具有许许多多的小细胞上(称为Parvo cellular)。但是,它恰恰并不是只有两层,而是共有四层。它们的输入是分别来自两个眼睛,且总是保持分别输入的。
大细胞层与小细胞层究竟起着什么不同的作用呢?在两个实验室用训练过的清醒的猴子去完成各种视觉任务,然后在侧膝体上做了局部的小损伤。这些实验大致能表明:小细胞层中的神经元主要携带有关颜色、纹理、形状和视差的信息,而大细胞层的神经元主要检测运动和闪烁目标(见参考文献2)。
到目前为止,我们仅讨论了兴奋性的主细胞。抑制性细胞主要分为两类,它包括侧膝体本身与丘脑的网状核团中的细胞。网状核团是在丘脑中一薄层,千万不要与脑干中的网状结构相混淆。这一薄层的细胞围绕着丘脑的大部分,且神经元都是抑制性的。它们接收的兴奋性输入来自传人到新皮质或由此传出的轴突,而且它们彼此存在着相互作用。它们的输出又被立即映射到在它们下面的丘脑部分。如果把丘脑看成是通向皮层的大门,那么这些网状核团就好像看守大门的卫兵了。
侧膝体中的神经元还可以从皮层V1区获得反馈输入。令人奇怪的是,从V1区反馈的轴突比上行到皮层的轴突更多,但这些下行的轴突与远离胞体的树突形成突触。因此,它们的影响会大大地被削弱。这些反向的连接确切的功能还不甚清楚(有关它们功能的一些猜测请看第十六章 )。
当然,它也有来自脑干的输入,调制着丘脑的行为,尤其是网状核团的联系。这意味着动物清醒时,侧膝体中的神经元可以自由地传送视觉信息。但是,当动物处在慢波睡眠时,这种传送就被阻断,这里已较详细地叙述了一些与丘脑有关的神经元以及各种类型的突触联系,然而有关侧膝体的特性应能表达那种既简单又复杂的令人难以理解的组合。
侧膝体中的主细胞投射到视觉皮层(见图40所示),猫的轴突可以到达几个视觉区,但猕猴与人的轴突几乎都连接到视觉的第一区(1)。(在猴的皮层中,它与其他区域的联系较弱,这个问题与第十二章 讨论的育视有关。)如果人或猴的V1区中全部受到严重损伤,他(它)的视野的一半几乎全盲。
乍一看,大脑皮层的任何部分都是那么杂乱无章。每一平方毫米大约有10万个神经元;轴突与树突相互交错,还有许多起支撑作用的胶质细胞与微血管都混杂在一起,完全处于混饨状态。它们可不像计算机的芯片上晶体管和其他结构的布线有着整齐的排列。如果进一步作仔细观察,也会发现它确有部分结构是有序的。在大脑皮层的许多不同区域中,神经元的一般排列还是具有好多相同之处。让我们首先看看这些共同点究竟是什么。
大脑皮层就是一片薄薄的层,它的垂直厚度比平行于该层表面的长度要小很多,神经元的排列与外观是非对称的。与这一薄层表面相垂直的方向称之为垂直方向(这如同把皮层在桌面上展平一样)。另外两个方向称之为水平方向。例如:几乎所有的锥体细胞都有沿垂直方向上升到皮层表面的树突。与之相比,皮层水平方向上的细胞彼此有着相当类似的特性。这与森林中的树木的排列有点类似,垂直方向与水平方向有明显的不同。
皮层最引人注目的特性就是层状的。了解这些层以及各层中神经元不同的功能是很重要的。为描述上的方便,可以把它分为六层。实际上在层中也还包含有几个亚层,见图42所示,最上面的一层为第1层,它具有很少的细胞体,主要是由位于它下面层中的锥体细胞向上延伸形成的树突末梢及末梢间的相互连接的轴突构成。因此,它都是这些神经布线而很少有细胞体。在它的下面是2、3层,常常被统称之为上层。在这些层中有许多锥体细胞。第4层是由许多兴奋型的星状细胞组成,而几乎没有锥体细胞。它的厚度在不同的皮层区变化是相当大的,在一些皮层区几乎没有这一层。第5、6层称之为下层,它包含有许多锥体细胞,其中一些细胞的树突末梢一直可到达第1层。
在不同层中的神经元之间不仅是相当不同的,而更重要的是这些神经元的连接方式也极不一样,见图43所示。
上层(第2,3层)的细胞仅与其他皮层区相联系。尽管它们中的一些神经元通过胼胝体可与大脑另一侧的皮层区连接,但它们的投射作为一个整体未超出皮层区。虽然第6层的一些神经元具有与第4层连接的侧向轴突,但它们当中神经元主要反向投射到丘脑或屏状核,它是位于皮层下的附属于皮层的核团,并通向脑的中部。第5层是皮层中很特别的一层,只有这层的神经元完全投射到皮层以外的地方,也就是说,它们不投射到丘脑和屏状核,尽管也有一些神经元投射到其他的皮层区。因此,从某种意义上讲,第5层把在皮层中处理完的信息传送到大脑其他部分和脊髓。所有这些远离皮层的连接,甚至包括反向的连接都是兴奋性的。
当然,皮层也具有许多抑制性的细胞。但在数量上占多数的是产生兴奋性的锥体细胞,用GABA作为神经递质的抑制性细胞大约占了整体的五分之一,剩下的主要是刺星状细胞。这些可产生兴奋的刺星状细胞的轴突相当短(约100-200微米),仅仅能够与水平方向上相近的细胞联系。所有抑制性细胞都具有这种特性,但也有些例外。①
有一类抑制性的细胞好像不存在。锥体细胞的轴突经常向下延伸到离皮层相当远的区域。在此之前,它通常会伸出几个分枝,这称为侧枝。在某些情况下,这些侧枝又形成许多局部分叉,而且它们就在同一皮层区域内沿水平方向伸展相当长的距离,约几个毫米。
如果我们认为皮层能够实现计算功能,它就应该具有一种类似“门’;的特殊类型的抑制性突触。在把结果沿主要轴突的分枝传送到其他区域的目的地之前,它要能够允许信息通过轴突离开胞体,并在皮层区域内循环好几次,也就是说,它需要实现几次循环计算。为此,我们需要一个强抑制的突触集合,但它不在该轴突的起始端,而是位于轴突就要离开皮层之前的地方。尽管有一位理论家为了使他的模型能够工作,需要构建这样一类突触,但实际上还没有证据说明它们的存在。在轴突各个分叉点上也没有发现。
这些却显示出皮层区总像是没有做任何循环的处理就急急忙忙地将信息发送出去。这也意味着,当大脑需要通过反复迭代运算建立一种活动的共同体时,各个皮层区的连接与单皮层区内的连接是同样重要的。
***
信息究竟在皮层的各层之间是怎样传递的?这是一个极其复杂的问题,然而我们可以从下面粗略的框图获得一些了解(见图43)。
进入皮层区的主要的,但不是唯一的入口位于它的第4层。但当它很小或不存在时,就直接进入第3层的下部。第4层主要连接到上部的第2J层,然后,又依次与第5层形成一个很大的局域连接,一直到达位于它下面的第6层。第6层又依次通过短的垂直联系返回到第4层。第1层还接收来自其他皮层的一些主要的输入。这些与来自低层的高锥体细胞的树突末梢相联系。
关于小片皮层中的许多轴突连接的复杂性质,特别是某一层到其本身的许多连接是惊人的长,以上这些都未作介绍。很显然,在所有这些规律性的后面也还存在着一些必然的联系。然而,在我们对皮层有较深了解之前,要讲清楚这些规律是太困难了。新皮层可能是人类无上的荣耀,故它不会轻易地将其秘密公诸于世。
最后将谈到大脑的分区。最初,皮层的分区是根据在高倍光学显微镜下,观察切片染色后的形状(这类学术研究称为结构学)。纹状皮层正是由于它具有着明显的水平方向纹理而得名,这些纹理是从大的轴突末端沿各个方向水平伸展出而形成的。这些纹状足够的大,可以从染色的显微镜切片中,用肉眼观察到纹理,见图44所示。这些纹理突然在一大片皮层区域的边缘上消失了。因此,很自然地,把这样一块相当一致的区域给它起个名字或排个序号。皮层其他区域稍微有些不同。例如,纹状皮层具有很厚的第4层,而初级运动皮层即便有的话也是很少的。遗憾的是,相邻的区域的差别如此细微,以至于神经解剖学家们之间也无法达成一致的见解。20世纪初,德国的解剖学家科比尼安?波罗德曼(KorbinianBrodmann)把包括人在内的各种哺乳动物的皮层分成几个不同区域,并给每个区域排序。他把纹状皮层叫做17区,与它相邻的区域定为18区,与18区相邻的区域称为19区。把初级运动皮层标为第4区。其他一些神经解剖学家,如奥斯卡和赛西勒?沃格(oskar andCecile Vogt)把皮层分为更多的区域。①
虽然波罗德曼的划分基本上是正确的,但总的说来这种划分太粗略了。比如说,17区、18区、特别是19区都是与视觉有关。在下一章 将会涉及到17区可以看作为单个区域,18区和19区还包括许多重要的亚区,因此,这样一些术语就不再使用了。当然在某些医学文章中,他们对人的皮层还沿用这样的划分。
总而言之,视觉系统的初级部分是高度平行的即许多类似的但不同的神经元在同一时刻都处在活动状态。位于眼后部的视网膜是处理视觉输入的前端,它沿着两条主要通路将这些信息传送到通往皮层通路上的侧膝体及与眼动有关的上丘,还有脑干几个较小的视觉区,它们与眼动、瞳孔的调节有关。与颜色有关的信息传送到侧膝体,但不到达上丘。这些初级部分的信息都是相当局域和简单的。我们要是能看到任何东西,就说明这些视觉信息都必须在视觉系统的不同区域被作了进一步处理。
===============================================
①在哺乳动物中,即使存在着从脑其他部分投射到视网膜的神经元,也是很少的,当然,移动我们的眼睛,可以影响视网膜神经元的发放。
①还有第三类,有时被称为“w细胞”,包括相当多的神经元,并且具有各种特性。
①然而,请注意,由于所需的输出仅是一个简单的二维向量,因此,当一个区域同时要处理更为复杂的信息时,这种方法是不能用的。
①也称为“纹状皮层”和“17区”。
①一个例外是一种被称为“篮状细胞”的抑制性神经元,它的轴突在皮层内延伸长得多的距离,能有一个厘米或更长。当它们与另外一个神经元连接时,在它的胞体和附近的树突上形成多个突触。因此它们能在神经元的重要部位产生相当强的抑制。它们确切的功能还不了解,我们这里也忽略了一种著名的抑制性细胞的功能,这类细胞被称为“枝形细胞”(chandelier cell)。它的轴突仅与锥体细胞相联,并且仅在它们轴突的起始部位,形成多个抑制性突触。
①就是奥斯卡?沃格切开并且检查了列宁的脑袋,苏联当局为了这个目的而授权与他。
第十一章 灵长类的视皮层
“我们应当尽可能把事情简化,但又不能过分。”
――阿尔伯特.爱因斯坦
灵长类的大脑皮层由左右两片薄板构成,而每片薄板又可分成许多各异的皮层区域。如何确定皮层上一块特定的区域是否同属于一个皮层区呢?可能有效的判断标准有很多种。第一种方法是在显微镜下观察其剖面的结构形状――比如说,它是否具有延伸的第4层。我们已经观察到明确限定17区的条纹。这种简单的差异只在少数情况下是有用的,尽管可使用的分子探针更多时情况会有所改变。另一种方法是通过检测一个视觉区域的视觉映射的细节来寻找它的边界。但这种方法通常不太适用,尤其是在高层视觉区域,那里大多数几乎没有视网膜区域对应组织――即它们没有简单的视觉投射。目前最有效的手段是寻找每个假定区域的连接(包括输入和输出)的特征模式。应用现代生物化学方法可使这种方法得到相当可靠的结果。不过正如我们在第九章 所看到的,这些方法大多不适用于人脑。
许多科学家对大脑皮层(特别是猫和猕猴)的功能划分作出了贡献。即便如此,我们的知识仍然是不全面的,只能看作是一种初步的结果。
让我们从纹状皮层(17区)开始,它现在称作V1区(即第一视区)。V1区相当大,每平方毫米表面下有将近25万个神经元。在大脑皮层该数目通常大约是10万,V1区则是个例外。猕猴脑一侧的V1区总共有大约2亿个神经元。这可与来自侧膝体的大约上百万个轴突相比。从这些数字中我们马上能看出对从侧膝体到v1的输入必定有大量的处理。V1区并不比邻近的V2区更厚,而V2区的表面密度要低。这意味着,平均而言V1区神经元的体积相当小。这让人们产生一种印象,进化过程在合理的范围内尽可能多地将神经元塞进了V1区。
来自侧膝体的兴奋性输入主要进入第4层,同时也有一些传到第6层。第4层有若干子区。来自侧膝体P层和M层的输入大多分别进入第4层的不同亚层,所有输入的轴突都广泛分叉,因此一个轴突可能与上千个不同的神经元接触。与之相应,第4层的每个神经元从许多不同传人的轴突接受输入。尽管如此,一个典型的棘状星形细胞只有部分突触(可能是20%)直接接受来自侧膝体的输入。其他突触接受来自其他地方的输入,这主要来自邻近的其他神经元的突触。这样,第4层神经元不仅仅聆听侧膝体的诉说,彼此也进行广泛的交谈。
就像视网膜的输入映射到侧膝体一样,侧膝体的输入也映射到V1区。当然,这是一种对侧视野的映射。但这种映射并不是均匀的(图45)。对应于凝视中心附近的空间比视野外周要大得多。它使我回想起几年前流行的一幅幽默地图,描述的是一个纽约人眼中的美国。其中大部分是曼哈顿地区。新泽西被大大地缩小了,而加利福尼亚和夏威夷则仅在远处被附带标记上。
此外,在小尺度上,皮层的映射极其杂乱无章。在双眼除了盲点及远离外周的所有地方,具有通过侧膝体向皮层的投射,这两条到达第4层的连接通路分离成指纹一样的无规则条纹(图46)。①在第4层以上和以下各层中,沿条纹中央有一系列“斑点”(用细胞色素氧化酶染色可显示出来)。这里的神经元对颜色和亮度特别敏感。
一般而言,皮层V1区的不同神经元对不同的物体敏感。回想一下,侧膝体向皮层投射的神经元具有中心一外周拮抗的小感受野,猕猴第4层的一些神经元仍保持着这种特性,只是感受野稍大一些。在60年代,戴维?休伯(David Hubel)和托斯滕?威塞尔(TorestenWiesel)(他们后来都在哈佛医学院工作)发现,对于V1区第4层以外其他层的大部分神经元而言,最佳刺激是细的亮棒(或暗棒)或者边缘:而不是一个光点,(因为这项发现以及其他一些工作,休伯和威塞尔获得了1981年诺贝尔奖。)它们对运动棒的反应比亮暗闪烁的棒更好。对于任何特定神经元而言,它对具有某一特定朝向的线或棒状剌激的发放最剧烈。如果棒的朝向仅偏了15。,通常细胞的发放率也会变得很低。不同的神经元具有不同的最佳朝向,然而除了第4层某些部位以外,在垂直于皮层表面方向上直接相邻的神经元趋向于对同一朝向反应。这常被称作“柱状”排列。此外,如果沿水平方向穿过皮层,可以发现最佳朝向的变化相当平缓,仅偶尔会有突变。在皮层任意一个直径大约1毫米的小区域内,所有的各类神经元的感受野常常具有某种程度的重叠,并具有所有可能的朝向。这种排列被描述成“超柱”和“皮层模块”,不过不要过分地从字面上理解这种观点。遗憾的是,这种提法对于理论家来说过于流行。他们当中有些人应当理解得更好些。
休伯和威塞尔发现了两大类朝向选择细胞,他们称之为“简单细胞”和“复杂细胞”,简单细胞的感受野的兴奋区和抑制区很容易定义,这种布局使它对棒或边缘的反应最佳。一些感受野的尺度比其他的更为精细,因而能反映更细微的特征。①
复杂细胞与简单细胞的区别在于它们的感受野并不能简单地分成兴奋区和抑制区。要让它们发放,同样需要位于其感受野内的具有其最优朝向的一根棒或边缘,但它们对刺激在感受野内的位置并不敏感。其感受野常比邻近的简单细胞稍大些,此外,一些复杂细胞可对更复杂的刺激(如沿相同方向运动的一个光点图案)有反应。
简单细胞或复杂细胞是如何设置输入连接从而产生了所观察到的行为的呢?应当清醒地认识到,在经过近三十年的研究之后。我们仍然不能确切地知道答案。从逻辑学的角度看问题显得很简单。对于简单细胞而言,只有当刺激点集的大多数总和起来形成最佳反应的棒,足以产生一个反应,它才会发放。它们进行一种“与”操作,但需要超过某个输入阈值才能引起发放,与之相反,当这根或那根直线(它们具有相似的朝向)在一个复杂细胞感受野内某处呈现时,细胞会发放。这好像复杂细胞接受来自一个由相似的简单细胞构成的完整集合的输入,并对其执行“或”操作。看来复杂细胞在处理上确实比简单细胞做了进一步加工,但深入的研究表明这种简单的观点导致了困难,因为许多复杂细胞具有直接来自侧膝体的输入。此外还有一个问题,就是最佳反应通常是对运动直线作出的。有时一个神经元对(垂直于直线的)一个方向的运动的反应比相反方向要大得多。
特别遗憾的是这个问题尚未解决。至少有这样一种可能,即简单细胞执行“与”型操作,随后再由复杂细胞执行“或”型操作,这是大脑皮层的所有区域所使用的一般策略。倘若真是如此的话,那么了解它就是非常重要的。
皮层V1区的神经元的反应形式有多种。正如我们已经看到的那样,第4层的许多神经元是中心-周边型的。斑点中的神经元也同样如此。其他大多数神经元具有朝向选择性,只不过有些神经元对不太长的直线(常指端点抑制)反应最佳(1),而其他的神经元,如第6层的许多神经元,对非常长的直线反应最佳。
另一种类型的神经先从双眼接受输入,只有这种输入来自视网膜上位置不完全对应的神经元时,它的发放最强。这在提取视野中目标的距离信息时是必要的,因为不同距离上的物体产生的视差不同(这在第四章 解释过),我们已经看到,某些神经元对特定方向的运动敏感,而对相反方向的运动则没有反应。许多这样的细胞位于一个称作4B的薄层内。许多神经元对所有波长的可见光具有相同的反应,而其他有些神经元,特别是在斑点中的神经元,其感受野中央和外周的反应可对波长有选择敏感性。简而言之,它们对颜色敏感。所有这些都表明了V1区的不同神经元按不同的方式处理输入的视觉信息。
感受野是视野的一部分,在其内部光的变化会引起细胞发放。然而,感受野外有大得多的周边区域,在该区域内光的变化本身不会引起细胞发放,但能调节由感受野产生的原有的效果。这个区域现在称作“非传统”感受野,它引人了一种关于局部环境背景的重要观点。这个环境可以具有特定的特征。一个细胞不仅仅对一个特定的特征敏感,同时也受邻近的相似特征的影响。这种神经行为的重要特性有可能出现在视觉等级的所有层次。它可能具有重要的心理学含义,因为心理学家发现在许多条件下环境是重要的。
为什么皮层V1区具有视野的映射(尽管这种映射比较粗糙并有扭曲)?这并不是因为有一个小矮人观看它――我们的惊人的假说反对这种观点。最可能的原因是这样能保持脑的连线更短些。V1区的神经元主要关心的只是视野内一个小区域中发生的事情,它需要与其他一些神经元相互作用以提取它们表达的信息,一种大致的映射使得它们彼此保持相当近。理论家们指出,这种最短接线要求也可以解释在皮层发现的各种类型的分块现象,因为它允许在一个整体的主要映射中存在多个子映射。一个子映射中的一小块可能在内部有强相互作用,同时与同一子映射内的邻近部分有稍长一些的连接。这样的小块还可能与邻近的其他类型的子映射的部分有较弱的局部连接。按照同样的方式,有时把一座城市考虑成由许多具有共同利益的相互作用的地方社团组成,这是有好处的。如何布置这些团体,部分是为了使交流更便利,因此整个城市散布有许多超级市场,而每个居民都离其中某一家不太远。
最终需要在所有层次上确定这个连接线的经济学问题。将该问题与新皮层神经元总数保持在一个合适的最小值的需要联系在一起,可以很好地解释皮层(特别是视觉系统)组织的一般规律。
V1区以及其他各区的映射的构造形式是这样的:看来它的大尺度特性(比如,V1区中哪个区域对应于黄斑)可能是在有关基因的指导下随着脑的发育过程中固定下来的。映射的具体细节则是由来自眼睛的输入的调节产生的,它仿佛依赖于大量输入突触的发放是否相关。其中某些发育甚至可能在出生以前就开始了。在动物幼年早期有一个临界期,在此期间可能很容易实现这种接线的改变,但映射的某些改变则可在此后的生活中发生。
***
有些习惯用语表征了神经元的反应特性(如V1区许多神经元对朝向的反应),它们是有用的。一个常用词是“特征检测器”,它确实抓住了事实,即有些神经元对朝向敏感,有些则对视差或波长敏感,等等。但它却有两个缺点。首先,它暗示神经元仅对它名字前的“特征”反应。(有些人或许认为它是唯一对该特征反应的神经元,但这远非事实。)这忽视了该神经元也可能对其他特征(通常是相关的特征)反应这个事实。例如,一个对朝向敏感、具有端点抑制反应的细胞对(适当位置适当朝向的)短线有很好的反应;但由于感受野的子结构,它也会对部分在其感受野内部的长得多的直线的曲率敏感。
对特征检测器的第二种误解是它暗示神经元被脑用于产生那种特定特征的觉知。这不一定是事实,例如,一个对不同波长有不同反应的神经元并不一定是使你看到颜色的系统的一个核心部分。它可能属于另一个系统,仅仅将脑的注意引向颜色差异,而并不产生关于该颜色的觉知。
另一个方面,由特征检测器编码的特征很少像工程师们设计的那样分成精巧的类型。现在很少提及这一点。例如,人们会认为一种“简单”类型的朝向选择细胞有两种方式设置其兴奋区及抑制区,一种沿感受野长轴方向是对称的,而另一种则是反对称的。①这些类型确实存在,同时还有许多其他相关但混乱的设置形式。我们在第十三章 将会看到,人们可以预料,这种结果恰恰是使用固有学习算法的神经网络演化发展而来的,而并非严格地由设计者事先设置的。
为了理解一个神经元在脑的操作中所起的作用,我们至少需要知道它的感受野以及它的输出投射到何处,即与其轴突有突触接触的所有神经元。索尔克研究所的特里?塞吉诺斯基(Terry Sejnowsh)称之为“投射野”,与“感受野”这个术语相对应,在讨论(神经元在脑中的)“含义”时投射野可能扮演了重要角色。如果一个神经元的轴突被切断,那么它的活动对脑来说不会有多大意义。
皮层V2区(视觉第2区)也很大。它也像V1区那样具有对侧视野的映射,从黄斑到周边V1区的映射的局部尺度(称为“放大因子”)有所变化,如果因此说它显得有些不寻常的话,那么仔细检查图45可以看出,V2区的映射甚至更为奇特,映射基本上分为两部分,大致对应于对侧半个视野的上、下部分。①同样,专用于黄斑附近部分的区域比视野外周部分更大。
整体而言,V2区的神经无所敏感的一般特征与V1区大致相同,如朝向、运动、视差和颜色等,但也有差异。几乎所有V2区神经元接受双眼输入。它们的感受野常比V1区的神经元大,并能以更精细的方式作出反应。例如,有的神经元对某些主观轮廓②有反应。虽然在V1区也发现了有些神经元对线段端点型主观轮廓(图15)有发放,但对其他类型(如直线连续型,见图2)敏感的神经元确实只出现在V2区,而在V1区则没能发现。不只一位哲学家在得知存在这种对主观轮廓反应的神经元后感到吃惊,但我们并不以为奇。当我们清清楚楚地看到了一些视觉特征(而不仅仅是推断出它)时,在我们脑中确有某些区域的神经元对它们发放。这或许是一个好的普适规律。果真如此的话,它将是一个很重要的规律。
皮层V2区也是分块的。使用可以显示V1区斑点的酶,可以看到相当粗糙的条纹,走向大致垂直于V1/V2的边界。每类条纹所敏感的一般视觉特征并不相同。看来有若干条不同的信息流通过V2区。有一条处理的主要是颜色信息,另一条则主要是视差,等等。科学家们对所有这些细节很感兴趣,因为这些问题正与不同亚区的各种神经元精确的分类方式以及它们如何使我们能够看见物体密切相关。即便在单个区域内,神经元的行为也被分成部分分离的类别,这对我们来说是重要的,尽管对于这种分离的清晰程度尚有争议。
到此为止我只谈论了V1区具有向V2区投射的神经元。V2区是否有神经元反向投射①到V1区呢?答案是,具有反向投射的V2区神经元与有前向投射的V1区神经元几乎一样多,但有一个重要的差异。前向投射多集中在V2区第4层,而到V1区的反馈完全避开了第4层。
以前曾经认为只存在三个视觉皮层区域,即17、18和19区。我已经详细地描述了其中的两个区域,V1区(等价于17区)和V2区(早先定义的18区的一部分)。此外到底还有多少区域呢?令人吃惊的是,现在至少已经识别出二十个不同的视觉区,另外还有七个区域部分与视觉有关。这个事实本身清楚地体现了视觉处理的复杂性。由于各个区的神经元具有不同的输入输出集合,因此它们的行为极为不同。图47是戴维?范?埃森(David VanEssen,
现在西雅图的华盛顿大学)构建的猕猴展平的皮层的模型。由于皮层是弯曲和折叠的,图示必然会有所扭曲。①为了减少扭曲,在皮层薄板上有选择地进行了切割,得到了一个几乎隔离的V1区,插入在图的左侧。将该图与图48相比较,那里略去了表示皮层折叠的标志,并在相应位置上画了许多皮层区域,视觉区域以及那些具有部分视觉的区域都用阴影表示。对猕猴而言,它们总计占有总皮层略多于一半的区域,(要记住猴子是视觉功能非常强的动物。)
这张图远非最后的结论。例如,右上方的46区仍可被细分。许多区域具有奇怪的名字,但它们通常是其全称的缩写,如MT代表中颞叶(middle temporal),VIP代表背侧内顶叶(ventral intrapari-etal),等等。其他有些区域具有数字编号(在此省略),它们通常是波罗德曼所定义的,其中一些已经被细分(如7a和7b)。
我将简要描述其中两个区域:MT区和V4区,因此对已知的关于全部视觉区的所有情况不作叙述。这特别是由于对许多视觉区的了解还相当缺乏。皮层MT区比较小,有时也称为V5区。它具有视野半区与视网膜区域相当好的对应,但其神经元的感受野一般比v1或V2区大。MT区神经元对刺激的运动(包括运动的方向)特别敏感,每个神经元对一定速度范围内的刺激产生发放。有些对高速运动发放最佳,其余的则对应于低速运动。
最初人们没有想到这些神经元的反应通常依赖于目标与背景的相对运动。加利福尼亚理工学院的约翰。奥尔曼(John Allman)意识到了这一点。因为与许多神经科学家不同,他对猴子以及它们的野生生活方式非常感兴趣,至今他仍在家中养猴子。他曾数次出国在猴于的自然栖息地对它们进行研究。因此他具有关于猴子的典型视觉环境的第一手资料。他试图在实验室中以一种大大
简化的形式再现这种环境。他和同事们使用电视屏幕上由随机点组成的棒作为刺激,通常一个神经元可能对其感受野内沿垂直于它的长度方向向上(或向下)运动的斑点组成的棒有很好的反应。然而他发现,如果由斑点组成背景也沿相同方向运动,神经元的发放会下降。如果背景沿相反方向运动,那么该神经元对运动棒的发放将会提高。这样,神经元主要检测的是局部特征与邻近背景的相似特征间的相对运动。这正是前面提及的非经典感受野的最简单形式。虽然事情并不总是这样明了,①看来这样的神经元组成的集合能够学会不仅仅对一个物体的一个特征反应,也能对物体的某些环境特征反应。
MT区的某些神经元对更复杂的运动方式反应。它们的行为与所谓的小孔问题有关,考虑图49,想像在一个屏上有一个小圆孔,通过它来观察一根没有特征的直线,它是一根很长的直线的一部分,这根长的直线的大部分被屏所掩盖,如果这根直线沿任何方向运动,你通过小孔所能看到的一切只是一小段直线沿垂直于它长度的方向运动。在图49的注解中有更加详细的解释。
V1区中对运动方向敏感的神经元的行为便是如此。它所能感受的只是垂直于该直线方向的运动分量,而不是整个物体的真实运动。然而,MT区的某些神经元确实能对实际运动反应,特别是如果信号是由若干个线段集合组成的。实验表明MT区的神经元可简单地分成两类,一类能解决小孔问题,另一类则不能,就像们区的神经元那样。如果真是这样的话,那太好了。事实则要复杂得多。神经元表现出了这两类之间整个范围内的各种行为。尽管如此,这给出了一个例子表明视觉系统较高层次神经元的反应如何变得更加精细。
如果输入信息被误解,脑就会作出错误的解释。一个大家所熟悉的例子是理发店的柱状旋转招牌形成的错觉――这个柱子实际上是绕着它的长轴旋转,但条纹看起来像是沿柱子方向向上运动①。红、白条纹边界上的任意点的实际运动方向垂直于柱子的长度方向。但脑却看到条纹沿柱子方向运动。图50解释了这个现象。
皮层MT区的神经元几乎不对颜色敏感。不过其中一些对照度相同而仅由颜色差异形成的边界的运动有反应。这与皮层V4区的神经元形成鲜明对照。V4区的神经元对波长的反应很复杂,但对运动几乎不敏感。②它们的感受野通常很大,但在某些情况
下神经元能对感受野内任意位置上具有恰当视觉特征的小物体作出反应。这个映射具有复杂的视网膜区域对应,但不像V1区那样简单。
许多颜色反应是颜色视觉理论引导我们所期待的“双拮抗反应”。更重要的是,伦敦大学学院的神经生理学家赛米尔?泽奇(Semir Zeki)表明它们的行为具有兰德效应(见第四章)。它们的反应不仅仅取决于感受野中央和外周的光的波长,还受邻近表面的光的波长的强烈影响。大致说来,它们不是只对波长反应;而是对感受颜色反应,猕猴V4区的一个神经元对由不同颜色的长方形组成的图案中的一个红色色块反应。而泽奇自己也认为它是红色的。即使有照明光波长的干扰,从该色块到达视网膜的光的实际波长已有很大差别,该神经元仍能有反应。这显然是环境影响神经元行为的另一个例子。对于心理学家来说,认识到在某种程度上对环境的反应专门由单个神经元来加以表达,这一点很重要;他们应当在他们的理论模型中考虑这一点。
图48给出了目前已知的视觉区域的示意图,但并未涉及它们之间的连接方式。一般而言,主要的信息流从左侧的皮层V1区开始,流向右侧远端靠近脑前部与皮层非视觉区交界处的那些区域。通常用一个粗略的映射大致代表这些投射,它意味着在接受区彼此邻近的轴突终端一般来自发送区相距不太远的神经元。这也会出现在没有视网膜区域对应的区域,比如在等级中较高层的区域。
范?埃森和同事们试图采用由神经解剖学家凯瑟琳?洛克兰(Kathleen Rockland)和迪帕克?潘德亚(Deepak Pandya)最早提出的观点,把所有视觉区按照大致的等级作一排列。洛克兰和潘德亚特别指出,如果从A区到B区的投射集中在第4层,那么,从B到A的反馈一般避开第4层而通常与第1层有强连接。我们已经看到在V1和V2之间的连接出现过这种情况。如图51所示,可以相当简单地表示这种观点。从眼到脑的投射(主要集中于第4层)称为“向前投射”,反方向的则称为“反向投射”。
这个关于第4层的连接的规则总是成立的吗?事实比较复杂。不过已经证明,使用图51的约定,有可能将已知的大部分连接用单个等级图表示。最新的一种形式见图52。(别忘了图中每根连线代表沿两个方向的大量轴突。)你不必因这张连接示意图的复杂细节望而生畏,只需注意到它体现了视觉处理的复杂性(如果你看不出其他东西的话)。极少有人会想到他们的脑是以这种方式构建的。
关于第4层约定的协议有一些例外是值得重视的。例如在相同层次的皮层区之间有许多互连接。简单的第4层规则并不包括它们。因而在构建该图时使用了更为精细的规则。现在还不清楚真实的布局是否只是拟等级排列的,或者对这些更复杂规则的例外是否主要是由实验误差引起的,不管怎样,毫无疑问各个区域可以粗略地按一个近似等级的方式排列。如果存在例外的话,它是否具有特殊的意义呢?只有进一步的工作才能回答这个问题。的区域。所有连接是双向的,这个规则几乎总是对的,但也有例外。①随便说一句,图52并不打算显示连接强度(例如,每根直线代表多少轴突),这主要是因为这方面信息太少。图52中某些线代表上百万个轴突,其他的可能只有十万个,或者更少。
皮层中邻近区域总是互相连接在一起吗?通常如此,但也有少量例外。
等级排列也得到不同来源的证据的支持。它是不同区域神经元活动的一般规律,当我们沿着该等级上升时,其行为大致遵循两条规律:感受野的大小不断增加,因而在最高层区域的感受野通常覆盖整个半侧视野,甚至还部分地或全部包括了另外一半视野(这主要经过胼胝体连接来实现的)。此外,引起神经元反应的特征变得越发复杂。V2区的一些神经元对某些主观轮廓有反应,而MT区的一些神经元对略微简单的运动图案有反应(我们已经看到,它们能够解决或部分解决小孔问题)。MST区的神经元对整个视野内的运动有反应,有的发放对应于物体正在逐渐靠近并变大,有的则对应于物体在后移,V4区的神经元对颜色感受有反应,而不仅仅是光的波长。
在较高皮层中,我们发现了对脸的正面有反应的神经元。它对脸相对于凝视中心的位置并不敏感,甚至当脸略微倾斜也不受影响。这样的神经元对由眼、鼻、嘴等随意组合成的图像几乎不反应。另外一些神经元对脸的侧面最敏感,另一方面,7a区的神经元主要对一个物体与头或身体的相对位置敏感,而不那么关心该物体是什么。后者是下颞叶(那些缩写中间是IT的区域,如CITd)的主要任务,这些己在识别脸的描述中提到过。几乎可以肯定还可以发现许多更复杂的反应。
由此可知,一般每个区域从更低层区域接受若干输入。(这些低层区域提取的特征要比V1区所反应的相当简单的特征更复杂。)然后它对这些输入的组合进行运作,以便产生更为复杂的特征,并把它们传到等级中的更高层次上。同时,信息分成若干相互作用的流顺着等级向上流动。我们已经看到了一些例子,如来自视网膜的部分分离的M信号和P信号,从V1到V2来的三支信息流,以及更高层次上的“是什么”和“在哪里”。但必须强调这些流之间常常有某些信息交换。
反向通道又怎样呢?这也迫切需要更详细的研究。人们可以想像它们的各种功能。它们也许能帮助形成前面提到的非传统感受野,从而允许高层次的行为影响较低的层次。它们也可能属于这样一个高层次系统:当较低层区域的操作己在略为全局的层次上获得了成功时,则向它们发回信号,表示应当对其突触进行修正,以便将来能更容易地探测出这个特征。它们还可能与注意机制和进行视觉想像的机制紧密相关。它们或许对神经振荡同步(见第十七章)有作用。这些仅仅具有一定的可能性,但其中哪些是事实尚有待进一步考察。
此外,整个系统看起来并不像一个的固定不变的反应装置。它更像是由许多以相当高的速度传导的瞬间动态相互作用所控制的。最后,我们不要忘记我所描述过的一切是应用于猕猴而不是我们人类的。当然我们有理由假设我们自己的视觉系统与猕猴相似,但这仅仅是个假设。就我们目前的全部知识而言,差异可能不仅在细节上,而且还可能在其复杂性上。
如果新皮层有某些秘密的话,这就是它有能力在处理等级上进化出新的层次,特别是在那些等级较高的层次更是如此。这些额外层次的处理可能是区别人或高级动物与刺猬这样的低级动物的特征。我猜测新皮层使用了一些特殊的学习算法,使得尽管每个皮层区域包含在复杂的处理等级上,但它们各自都能从经验中提取新的类型。这种能力可能使大脑皮层区别于其他形式的神经结构,如小脑和纹状体(它们并没有这种复杂形式的等级)。
这些观点都只是推测,但有一件事情相当清楚:虽然有许多不同的视觉区域,每一个区域以不同的复杂的方式分析视觉输入,但是,迄今为止无法定位出单个区域,其神经活动精确对应于我们看到的眼前的世界的生动图像,看着图52,人们也许会想,这一切或许发生在某些更为高级复杂的结构(如海马)以及与之相关的皮层结构(标记为HC和ER)当中。它们位于等级的顶端。但是我们在第十二章 将会看到,一个人可能会丧失脑的两侧的所有这些区域,但仍报告说他能很好地看到外界事物,而且他的行为表现似乎也是如此。简而言之,虽然我们知道脑如何分解视觉图像,但我们仍不知道它如何将它们整合在一起的,它又是如何构建出视野中所有物体及其行为的组织良好的详细的视觉觉知呢?_
======================
①同一物种的不同猴子的条纹和斑点的准确图案大致相似,但在细节上并不完全一样。即使对一只猴子而言,脑一侧的图案与另一侧也不相同。这就好像你左手的指纹与右手并不完全一样,由于同样的原因,这种细节多少依赖于发育过程中的偶然事件。我们又一次面对这种形式,它具有某种程度的秩序,但细节上则是显著的杂乱无章。
①最大的混乱在于这种细胞是否可能完成视觉场景的付氏变换。从字面上讲这是荒谬的。在任何情况下,它们更适于完成伽柏(Cabor)变换。但甚至这种观点是否有实际用途尚有待确定。可以肯定的是,某些神经元对细微的细节(它们常被称作“空间频率”)反应最佳,而其他一些神经元则对中间或更粗糙的细节反应更好。
①如图15所示,它们可能参与形成由直线端点构成的错觉轮廓。
①前者相应于一个衰减的余弦波,而后者相应于衰减的正弦波。
①这有助于我们去领会在展平的皮层表面显示凝视中心及视野的水平和垂直子午线的位置的那些标志。
②主观轮廓,也称作“错觉轮廓”,是我们看到的一些虚假的直线,它们实际上在视野中并不存在(如图2和图15)。
①我称之为“反向投射”,因为习惯上把从视网膜到侧膝体到V1期后到V2的广泛的信息流认为是“向前的”。人工智能领域的工作者通常用自下而上这个术语来代替“向前的”一词。他们称相反方向的信息流为自上而下的。
①从数学的角度讲,某些位置的高斯曲率远偏离0。
①最近,哈佛医学院的理查德?波恩(Richard Born)和罗杰?图特尔(RogerTootell)显示在果猴MT区有两种类型的神经元,每一种都存在于许多小的柱状簇之中。第一种类型的行为与文中的描述大致相同,第二种类型的神经元,其外周并不抑制反而增强神经元的主要反应。
①该方向也可能向下,这取决于柱子的旋转方向以及条纹画的方式。
②V4区很大,事实上,范?埃森把它分成三个子区:V4t、V4d,V74v。
(1)V4向V1的反向投射很强,但从VI到V4的向前投射通常很弱,或者没有。
第十二章 脑损伤
“巴比伦所有的废墟看上去远不如人类的思想的毁灭那样可怕”
――斯克罗普?戴维斯(Scrope Davies)
近些年来,神经病学家对脑部受到损伤的病人进行了研究。可能造成这些损伤的方式有多种,如中风、头部受到打击、枪伤、感染等,许多损伤改变了病人的视觉意识的某些方面,但病人的其他一些机能(如语言或运动行为)则基本未受影响,这些证据表明皮层具有显著的功能分化,而这种分化的方式通常是相当令人吃惊的。
在许多情况下,脑受到的损伤并不是单一的、专门化的。一粒高速射人的子弹对各皮层区域一视同仁。(活的皮层组织是相当柔软的胶体,用移液管吸吮能很容易地移去其中一小部分。)通常情况下,损伤可能包括几个皮层区域,对头部两侧对应区域同时造成伤害的后果最为严重,不过这种情况非常罕见。
许多神经病学家仅有时间对病人做简短的检查――仅够作出一个关于损伤的可能部位的合理猜测。后来,甚至连这种形式的检查工作也大部分被脑扫描所取代。近来,描述一个单独的、隔离的脑损伤被认为是不科学的,因此习惯上同时报告许多相似的病症。遗憾的是,这导致了将一些实际不同的损伤形式混为一谈。
当前的趋势在某种程度上纠正了这种做法。有少数病例中病人的感觉或行为的某个特定方面发生了改变,而其他大部分方面却未受伤害,现在往往特别注意这些病例。这些病人受到的伤害很可能比较有限,因而更加专门化。人们还努力通过脑扫描来定位这些损伤。如果病人合作的话,他将在清醒状态下进行完整的一组心理学及其他一些测试,用来发现哪些是他所能或不能看到或做到的。在某些情况下,这种测试会进行好几年。由于关于视觉处理的理论变得越来越深奥,检验这些观点的实验也变得更加广泛和精细。现在,它们可以和脑扫描技术相结合。该技术可以记录脑在完成这些不同任务时的行为。这些结果可以在具有相似损伤或相似病症(或者二者皆有的)病人之间进行比较和对照。
对V1区(条纹皮层)的损伤是一个明显的例子,现就以此作为开始。如果脑一侧的V1区被完全破坏,病人的表现是看不见对侧的半个视野,在本章的结尾我将详细讨论一个被称作“盲视”的奇怪现象。在这里让我们先看一下对视觉等级最高层部分损伤的结果,并将损伤局限在头的右手侧。这是人们所知的单侧忽略。损伤区域大致对应于猕猴的7a区(见图48)。这通常由大脑动脉血管疾病(如中风)引起的。
在早期阶段,症状可能非常严重―――病人的眼睛和头会转向右侧。在最严重的病例中,损伤的范围可能很大,以致病人失去了左侧的控制和感觉,他会否认他自己的左腿是属于他的。有一个人对于别人的腿出现在他的床上感到极度愤怒,于是他把它扔到了床外。结果他惊讶地发现他自己躺在了地板上。
大多数情况并没有这么严重。通常几天以后严重的病症就会减轻或消失。例如,这时病人可能无法拿起盘中左侧的食物。如果让他画一个钟,或者一张脸,他通常只画其中的右侧。在几周以后,随着脑得到部分恢复,他对半边的忽略程度进一步下降,但他对左侧的注意仍显得比右侧弱。如果让他平分一条直线,他会将中点画到右边。不过他对左侧并不完全是盲的。如果那里有一个孤立的物体,他会看见它。但如果在右侧也有某个明显的物体,他就无法注意到左侧的物体。此外,他经常否认有什么东西是斜的,而且不承认看到了视野左侧的没有物体的空间。
单侧忽略并不限于视觉感知。它也会出现在视觉想像中。意大利的埃德瓦尔多?比西阿奇(Edoardo Bisiach)和同事们报告了一个典型的例子[1]。他们要求病人想像自己站在米兰市的一个主要广场的一端,面对教堂,并叙述他们所回忆起的景象。他们描述的主要是从该视点看到的右侧的建筑的细节。随后病人被要求想像站在广场的对侧,而教堂则在他们身后,再重复上述过程。则他们讲述的主要是先前他们叙述时忽略的那一侧的细节,此时仍是视野的右侧。
另一种显著的脑损伤形式造成了颜色视觉部分或全部丧失。患者看到的所有物体仅具有不同浓淡的灰色,这是众所周知的“全色盲”――早在1688年,被称为“化学之父”的罗伯特?波义耳(Robert Boyle)就曾经报告过。1987年,奥立佛?萨克斯(Oliver5acks)和罗伯特?瓦赛曼(Robert Wasserman)在《纽约书评》中讲述了这样一个病例,病人是纽约的抽象派画家乔纳森?艾(Jonathan I.)。他对颜色有特殊的兴趣,以致他听音乐时会产生“丰富的内部颜色的一阵激发”。这被称作是联觉。在一次事故后他的这种联觉消失了,因而音乐对他的感染力也大大地消失了。
损伤是一次相当轻微的车祸造成的。乔纳森?艾可能受到了撞击,但除此以外他好像并未受伤。他能够向警察清楚地叙述事故的原因。但后来他感到头疼得很厉害,并经常忘记这次事故。昏睡之后,次日清晨他发现自己不能阅读了。不过这种障碍在五天后消失了。虽然他对颜色的主观感觉并未改变,但他却很难区别颜色了。
这种情况在第二天又进一步发展。尽管他知道那是一个阳光灿烂的早晨,在他驱车前往工作室时,整个世界看上去像是在雾中一样。只有当他到达那里并看见自己的那些色彩绚丽的绘画现在变得“完全是灰色而缺乏色彩”时,他才被自己有这样缺陷所惊呆了。
这种缺陷是残酷的。萨克斯和瓦赛曼形象而具体地解释了这种心理效应。虽然可以判断他的问题并不比看老式的黑白电影更糟,但是艾先生并不这样认为。大多数食物让他感到厌恶――例如,土豆看上去是黑的。在他看来他妻子的皮肤就像白鼠的颜色,他无法忍受同她做爱。即使他闭上眼睛也无济于事。他那高度发达的视觉想像力也变得色盲了。连他的梦也失去了往日的色彩。
艾先生所感受的灰度尺度被压缩了,特别在强光下更严重。因此他不能辨别细微的色调等级。他对所有波长的光的反应是一样的,只在光谱的短波区(“蓝色”)有一个额外的敏感峰。这可以解释他为什么看不见蓝天上的白云。他在识别面孔时也遇到了困难,除非他们离得很近他才能认出来。但由于突出来的物体具有显著的对比,十分清晰,几乎像剪影一样,因此他的视觉显得更敏锐了。他对运动异常敏感。他报告说:“我可以看到一条街区外的一条虫在蠕动。”在夜间他声称自己能看得非常清楚,能读出四条街区外的车牌。因此,用他自己的话说,他成了一个“夜行者”。在夜间徘徊时,他的视觉并不比别人差。
艾先生失去的颜色意识对视觉的其他方面影响极小,这种丧失只改变了他对灰度浓淡的敏感性并使他对运动更敏锐。这种损伤显然是双侧的,因为两侧视野都受到了影响(有些情况下全色盲仅对一侧有影响)。这种损伤还是一种延迟过程,因为对颜色意识的完全丧失是在两天内发展起来的。如果不是他对短波长的光(蓝光)有增强反应的话,这很像是P系统有缺陷(P系统对形状和颜色更敏感),而大部分视觉任务由未受损伤的M系统(对运动更敏感,见第十章 )来完成。
艾先生的脑也进行了MRl扫描和CAT扫描(尽管后者尺度较粗糙),但未发现任何损伤,因而尚不清楚损伤的部位是否在皮层上。不管怎样,上述情况表明全色盲通常包括了人视觉系统中相当高层次皮层的损伤(枕叶的腹侧正中部分)。
另一种损伤造成的缺陷非常惊人,这就是面容失认症(prosopagnosia)。上个世纪的一位英国首相就遇到了这种困难。他甚至认不出自己的长子的脸。面容失认症有多种不同的形式,这可能是因为不同病人的脑损伤的实质各有不同,问题通常不是他们认不出那是一张脸,而是识别不出那是谁的脸,不知那是他的妻子的、孩子的还是一个老朋友的脸。病人常常认不出照片上他自己的脸。他甚至不能认出镜子中的自己,尽管他知道那肯定是他的脸,因为当他眨眼时镜中的像也在眨眼。他常常能从妻子的声音或走路的样子中认出她来,但只看她的脸却不能。
除非损伤很严重,否则他能描述一张脸的特性(如眼睛、鼻子、嘴等等)以及它们的相对位置。此外,他的目视扫描机制也正常。在一些情况下,让他辨认某些在不同光照下拍摄的不熟悉的照片时,他能区分这些不同的面孔。但即便他和他们早就很熟悉,他也不能说出哪张照片是谁的脸。
双侧全色盲患者常常同时患有面容失认症。但应当记住,没理由认为损伤(通常由中风引起)只影响单个皮层区。事实上,面容失认症可以和其他几种缺陷一同出现。
神经病学家安东尼奥?达马西欧(Antonio Damasio)对面容失认症的研究作出了不少重要的贡献。情况并不仅局限于面孔识别困难,在一个病例中,一个农夫再也不能识别他的牛,虽然原先他能叫出其中每一头牛的名字。但达马西欧的研究更深入一步。他和同事们表明,许多病例中病人不能在一组相类似的物体中识别出单个成员,例如,病人可能很容易认出一辆小汽车,但无法说出它是福特牌轿车还是罗尔斯?罗依斯轿车;不过他能识别救护车或救火车,可能是因为它们与典型的汽车有显著差异。他能认出一件衬衫,但不知道那是不是礼服衬衫。
达马西欧和同事们还发现,尽管有些病人不能分辨面孔,他们却能识别面部表情的含义并能估计年龄和性别。其他面容失认症患者则没有这种能力,这些结果表明面孔不同方面特征的识别是在脑的不同部位完成的。
目前对如何准确描述面容失认症及其内在机制尚有争议。达马西欧强调这不是一种普通的记忆疾病,因为这种记忆可以通过其他感觉通道(如听觉)激发出来。每种情况下的准确机理尚有待发现。
心理学家约瑟夫.齐尔(Joseph Zihl)和同事们报告了一个令人吃惊的病例[5],病人对大多数形式的运动没有意识。病人所受的损伤是双侧的,位于皮层的多个区域。第一次接受检查时,病人处于非常惊恐的状态,这并不令人奇怪,因为她看见在一个地方的人和物体突然出现在另一个地方,而她并未感觉到他们的运动。当她想过马路时就特别感到沮丧,因为原先在很远处的汽车会突然离她很近。当她试图把茶倒入杯子时,她只看到了一道凝固的液体弧的反光。因为她注意不到杯子中茶的上升,茶经常溢出来。她所体验的世界与我们某些人在迪斯科夜总会中看到的频闪灯光下的舞池的地板很相似。
在极慢的时间尺度上我们也遇到过这个问题。钟的时针看上去并不动,但是过一段时间后我们再看时,它已在另一个位置上。我们对这样一种观念很熟悉,一个物体可能是动的,即便我们并不能直接感受到它的运动。但在日常生活的一般时间尺度上我们通常没有这种困难。显然我们必定有一个特殊的系统自行来检测运动,而不必由时间分隔的两次不同的观察中从逻辑上推断它。
仔细的测试表明病人可以检测某些形式的运动,可能一种严重受损后残存的短时机制的作用的结果,而形成关于运动的更为全局的联系机制则已被破坏。她的视觉还有其他一些缺陷,大多数都与运动有关。但她能看见颜色并能识别面孔,也未表现出有本章前面描述的各种类型的忽视的征兆。
还有许多其他种类的脑损伤所引起的视觉缺陷。报导中有两个病例,患者失去了深度感知,看到世间万物和人都完全是平的,因而“由于人的身体仅由轮廓线表示,最胖的人看上去也只是运动的纸板人形而已”。其他病人仅从通常的正对方向看物体时才能识别出它来,而从非常规角度观看,如从正上方看一个平底锅,则无法识别。
英国的两位心理学家格林?汉弗莱斯(Glyn Humphreys)和简.里多克(JaneRiddoch)用了五年时间研究一个病人。他有多种视觉缺陷,如,他失去了颜色视觉,也不能识别面孔[7]。他们表明他的主要的视觉问题在于,当他看见一个物体的局部特征时,他不能把它们组合在一起。因此,尽管他能很好地复制一幅地图,能清晰地发音,并流利地口头描述他中风前所知道的事情,他却不能认出物体是什么。这些病例很重要,它表明一个人失去了部分高层视觉后仍会有低层次上的视觉意识。它支持这样一种主张:没有一个单独的皮层区标记了我们能看到的所有事物。
有一种视觉缺陷是那么令人惊异,以致知道此事的人都怀疑它是否可能存在。这就是安通综合症(Anton's syndrome),或称“失明否认症”。病人显然看不见东西,但并不知道这个事实[8]。当让他描述医生的领带时,病人会说那是一条有红色斑点的蓝色领带,而事实上医生根本没戴领带,进一步追问病人,他会主动告诉你房间的灯显得有些暗。
最初,这种情况显得不可能是真的。医学诊断是歇斯底里症,但这并没多大帮助。不过考虑如下的可能性。我经常发现,当我与从未见过面的人通过电话交谈时,我会在脑海里自然而然地形成他(或她)的外貌的粗略影像。我曾经和一个男子进行过多次电话长谈,我想像他有五十来岁,相当瘦,戴着度数很深的眼镜。当他终于来看我时我发现他只有三十多岁,明显发胖。我对他的外貌感到很惊讶,这才使我意识到我原来把他想像成别的样子了。
我猜想那些失明否认症患者产生了这种影像。或许是由于脑损伤导致这些影像不必与来自眼睛的正常视觉输入竞争。此外,在正常人脑中可能有某些重要机能可以提醒它们某些影像是错的,而这些患者由于其他部位的损伤而丧失了这些机能。这种解释是否正确尚有待研究,但它至少使得这种情况显得并不完全难以理解。
在不同的皮层区域对损伤的反应中是否有某些趋势呢?达马西欧指出,在人的颞区(头的两侧)靠近头后部的脑损伤与更靠近前部损伤的特点不同[9]。靠近颞叶后部(或是其后的枕叶,见图27)的损伤与概念性东西有关。如果损伤靠近前部,对概念的影响逐渐变小,直到海马附近,主要丧失的是与特定事件有关。这样,概念与事件记忆间的区别①非常显著。可能在处理一般物体和事件的区域与仅仅处理其中一种的区域问有一种逐渐的转变。
达马西欧的建议与我对单个皮层区的功能的描述是一致的。对于每个皮层区而言,其他区域(通常是等级更低的)有输入到达它的中间各层;该皮层区把这些区域提取的特征组合构造成新的特征。
例如,当你沿视觉等级向上走时,你会从皮层v1区出发。v1区处理相当简单的视觉特征(如有朝向的直线)。这些特征无时不出现。然后你到达处理诸如脸这类不那么频繁出现的复杂目标的区域,直到与海马相联系的皮层(图52的顶端),这里检测的组合信号(包括视觉及其他信号)大多对应于唯一的事件。
至此,我们之前的讨论足以建立两个普适要点:这些受损坏的视觉系统以一种奇怪而神秘的方式工作,它的行为与科学家所发现的关于猕猴和我们自己的视觉系统的连接方式和行为并不矛盾。
然而我们的任务是理解视觉意识。它是构建视觉影像所必需的许多复杂处理的结果。是否有某些形式的脑损伤对意识本身有更直接的影响呢?现已发现确实有一些。
第一种通常被称为“裂脑”。其最彻底的形式是胼胝体(连接大脑两侧皮层区的一大束神经纤维)以及称作“前连合”的一小束纤维被完全切除。在对癫痈病人的一般治疗失败后,为减轻其病症,会进行这种外科手术。其他形式的脑损伤也会导致病人失去胼胝体,但此时通常在脑其他部位也有额外损伤,因而无法像这样直截了当地解释结果。也有些人生来就没有胼胝体,但脑在发育过程中常能在某种程度上补偿早期的缺陷,因而结果并不如手术情况那样明显。
这个主题的历史十分奇特,因而值得作一简要叙述。一位著名的美国神经外科医生在1936年报告说,胼胝体被切除后并无症状。50年代中期,另一位专家在回顾实验结果时写道:“胼胝体几乎不能与心理学功能联系到一起。”卡尔?拉什利(Karl Lashley,一位聪明而有影响的美国神经科学家。奇怪的是,他几乎总是错的)则走得更远,曾开玩笑他说,胼胝体的唯一功能是防止两个半球坍塌到一起。(胼胝体显得有些硬,因此得名。胼胝有硬皮的意思。)我们现在知道这些观点是完全错误的。造成这种错误部分是由于胼胝体并不总被完全切除,但主要是因为检测手段不敏感或不恰当。
罗杰?斯佩里(Roger Sperry)和同事们在五六十年代的工作使得情况明显改善。由于此项工作斯佩里获得了1981年诺贝尔奖。通过仔细设计的实验,他们清楚地表明,当一只猫或猴子的脑被分成两半时,可以教它的一侧半球学会一种反应,而另一半球则学会另一种、甚至是对相同情况的完全矛盾的反应。正如斯佩里所说,“这就好像动物有两个独立的脑。”①
为什么会这样呢?对大多数习惯于用右手的人而言,只有左半球能说话或通过写字进行交流。对于与语言相关的大多数能力也是如此,尽管右半球能在很有限的程度上理解口语,或许还能处理说话的音韵。当胼胝体被切除后,左半球只能看到视野右边的一半,而右半球则只能看到左边的一半。每只手主要是由对侧半球控制,但同侧半球能控制手或手臂做某些比较粗糙的运动。除了特殊情况,每个半球都能听到说话。
刚进行完手术的病人可能经历各种瞬时效应。例如,他的两只手所做的目的正好相反,一只手扣上衬衣的扣子,而另一只手则随后将其解开。这种行为通常会减弱,病人显得比较正常。但更细致的检查揭示了更多的东西。
在实验中,病人被要求把凝视点固定在一个屏幕上。屏幕上会有一个图像在他的凝视点的左侧或右侧闪烁。这样可以保证视觉信息仅到达两个半球中的一个。现在有更加精心设计的方法可以做到这一点。
当一个闪烁的图片到达能使用语言的左半球,他就能像正常人一样描述它。这种功能并不仅限于语言表达。病人也能按要求不说话而用右手指向目标(右手主要由左半球控制)。他还能不看一个物体而用右手识别它。
然而,如果闪烁图片到达了不能使用语言的右半球,结果则大不一样。左手主要由这个不能用语言的半球控制,它能指向物体,也能通过触摸识别没看见的物体,这和右手所能做的是一样的。但当病人被问及为什么他的左手有这种特殊方式的行为时,他会依照能用语言表达的左半球所看见的场景虚构一个解释,但这并不是右半球所看见的。实验者知道真正闪烁进入那个不能使用语言的半球以产生行为的物体是什么,因而可以看出这些解释是错误的。这是一个“虚构症”的很好的例子。
简单他说,看来脑的一半几乎完全忽略另一半所看见的。只有极少的信息有时会漏到对侧。在给一位妇女的右半球闪现一系列照片时,迈克尔?伽扎尼加(MichaeI Gazzaniga)加入了一张裸体照片。这使得病人有些脸红。她的左半球并不能察觉那些照片的内容,但知道它使她脸红,因此她说:“医生,你是不是给我显示了一些很有趣的照片?”过了一会病人学会了向另一侧半球提供一些交叉线索;例如,用左手以某种方式发信号从而使能用语言的半球能够识别该信号。对于正常人而言,右半球的详细的视觉意识能够很容易地传到左半球,因而能用语言描述它,胼胝体被完全切除后,这些信息无法传到能用语言的半球。该信息无法通过脑中的各种低层次的连接传到对侧。
请注意,除了提到语言通常在左脑外,我并未涉及脑的两半有什么差异。我不必关心右侧脑是否有某些特殊能力,例如它十分擅长识别面孔。我也不必考虑某些人的一种极端的观点,他们认为左侧具有“人”的特性,而右侧则仅仅是自动机。显然右侧缺乏发展完善的语言系统,因而从某种意义上说不那么具有“人类”的特点――因为语言是唯一标志人类的能力。事实上我们需要回答右侧是否高于自动机这个问题,但我觉得应该稍作等待,直到我们更好地理解意识的神经机制,否则我们不能很好地作出回答,更不必说自由意志问题了。折衷的职业观点强调,除了语言外,两侧的感知和运动能力虽不完全相同,但一般特征是一致的。
大多数切开脑的手术并不切断两侧上丘的顶盖间连合(在第十章 叙述)。脑无法利用这个未触及的通路从一侧向另一侧传递视觉意识信息。因此尽管上丘参与了视觉注意过程,它似乎不像是意识的位置。
另一个引人注目的现象被称为“盲视”。牛津的心理学家拉里?威斯克兰兹(LarryWriskrantz)在这方面作了广泛的研究。盲视病人能指出并区分某些非常简单的物体,但同时又否认能看见它们。①
盲视通常是由于初级视觉V1区(纹状皮层)受到大面积损伤而引起的,在许多病例中损伤仅出现在头部的一侧。在实验中,一行小灯呈水平排列,使得病人在凝视这些灯光的一端时,它们全部落在视野的盲区。在一声警告的蜂鸣声之后有一盏灯会短时间点亮,而此时病人不能转动眼睛或头。要求病人指出哪盏灯被点亮了。病人通常对此表示异议,说既然他看不见那里的东西,没必要做这个实验。经过短暂的劝说之后,他会打算试一下并作“猜测”。实验会重复多次,有时这盏灯被点亮,有时则是另一盏。结果病人大感惊讶,尽管他否认看见了任何东西,却能相当准确地指出亮的那盏灯,误差一般不超过5到10度。②
有些病人还能区分简单的形状,比如X和O,只要它们足够大。有些人还能鉴别直线的朝向和闪烁。有人声称有两个病人能调节手的形状,使之与即将触摸到的目标的形状和大小相匹配,同时却否认看到了这个物体。某些情况下病人的眼睛能跟踪运动条纹,但这个任务或许是由脑的其他部分(如上丘)完成的。病人的瞳孔也能对光强作出反应,因为瞳孔的大小不是随意的,而是由另一个小的脑区控制的。
因此,尽管V1区受到严重损坏,病人会坚决否认察觉到了这些刺激,但脑仍能探测到某些相当简单的视觉刺激,并能采取相应的行动。
目前还不清楚这其中涉及的神经通路。最初猜测信息是通过“古脑”(Old brain)的一部分即上丘传递的,现在看来远不止如此,因为最新的实验表明眼视锥细胞参与了盲视对光波长的反应。他们对不同波长的反应与正常人相似,只是所需的光更亮些。在上丘没发现对颜色敏感的神经元,因此它不会是唯一的通道。
这个问题很复杂,因为皮层Vl区的损伤最终会导致侧膝体(丘脑的中继站)对应部位的细胞大量死亡,继而这又将杀死大量的视网膜P型神经节细胞,因为就像隐士一样,它们没有可以交谈的对象①。然而,某些P型神经元保留下来,就像侧膝体相关区域的一些神经元一样,可能是因为它们投射到了某些未受损害的部位。从侧膝体有直接但弱的通路到达Vl区以上的皮层区,诸如V4区。这些通路可能保留足够完好,足以产生运动输出(例如,能够指出目标),但尚不足以产生视觉意识(参见第十五章 讨论的里贝特的工作)。有些启发性的证据表明在V1区损伤的部位中有一些未被触及的组织形成的小岛,因而V1区在这些区域仍能起一定作用,虽然这种作用可能比较小,或者最终发现由于别的原因,一个完整的V1区对意识是必需的,而不仅仅是因为通常它产生了到高级视觉区域的输入。不管这个理由是什么,病人在否认看见任何东西的同时确实能利用一些视觉信息。
另一种让人感兴趣的行为形式是在一些面容失认症患者身上发现的。当病人与测谎器连起来并面对一组熟悉的和不熟悉的面孔时,他们无法说出哪些面孔是他们熟悉的,但是测谎器清晰地显示出脑正在作出这种鉴别,只是病人不知道罢了。这里我们再次遇到了这种情况,脑可以不觉察一个视觉特征却能作出反应。
海马是脑的一部分,实际上它并不仅限于视觉,而与一种记忆类型有关。它在图52的顶端,标志为HC①。图中还画出了它与皮层的一部分称作“内嗅皮层”(图中标为ER)的连接。它的层数比大多数新皮层少。因为它的位置靠近感觉处理等级的顶端,人们禁不住猜测这里终于是视觉(及其他)意识的真正位置。它从许多更高的皮层区接受输入并投射回去。这种复杂的单向通路是再进入的――即,它返回到离出发点很近的地方――这或许也暗示着它是意识的所在之处,因为脑可能使用这条通路去反映它自己。
这种假设看来很吸引人,但是遭到了实验证据的强烈反对。海马损伤可能由一种病毒性疤疹脑炎感染造成,这种病会造成相当严重、但有时很有限的损坏。看来病毒易于攻击海马及与其相联系的皮层。损伤的边界会很清晰。由于损伤可用删扫描定位且不再发展,病人在感染严重期过后数年均可进行复查。
如果你碰巧遇到一个失去两侧海马以及邻近皮层区域的人,你并不会马上意识到他有何异常。看了这样一盘录像带你一定会感到吃惊。其中讲述了一个人,他能谈话,微笑,喝咖啡,下棋,等等。他几乎只有一个问题,那就是他不能记住大约一分钟以前发生的任何事件。在相互介绍时他会和你握手,复述你的名字,并进行交谈。但如果你暂时离开房间,过几分钟后再返回,他会否认曾经见过你。他的运动技巧均被保留,还能学习新技术,并通常能保持数年甚至更长,只是他记不起来是什么时候学会这些技艺的。他对分类的记忆是完好的,但他对新事物的记忆仅能维持极短的时间,随后就几乎完全丧失了。他在回忆脑损伤前发生的事情时也有障碍。简而言之,他知道早餐一词的含义,也懂得如何吃早餐,但他对吃过什么东西几乎没任何印象。如果你问他,他或许会告诉你他不记得了,或者会瞎聊,并描述他认为他可能吃了些什么。
虽然从某种意义上说他失去了全部人类“意识”,但看来他的短时视觉意识并未改变。如果它受到了损伤,也只会是一种实验尚未揭示的细微方式。因此海马及其紧密相关的皮层区域并不是形成视觉意识所必需的。然而,流入和流出的信息通常有可能到达意识状态,因而有理由留意一下其中的神经区域和通路。这或许对找出脑中意识的位置有所帮助。
对脑损伤的研究能得到一些其他方式无法得到的结果。遗憾的是,由于大多数情况下损伤是极复杂的,这些知识时常很模糊,令人着急。尽管有这些局限性,在顺利的情况下信息是明确的。脑损伤的结果至少能对脑的工作提供暗示,而这些可以用其他方法在人或动物身上探测到。在某些情况下,它证实了某些在猴子身上进行的实验所得到的结果在人身上也适用。
=============================
①这些在动物身上取得的结果导致人们对脑分裂的病人进行更加仔细的检查。这些工作特别是由斯佩里、约瑟夫?伯根(Joseph Bogen).迈克尔?伽扎尼加(MichaelGazzaniga)、欧兰(Eran)、戴利亚?蔡德尔(Dahlia Zaldel)和他们的同事们开展的。
①在猴子身上进行了大量的平行工作,但在这里我并不打算叙述它们。
②实际上这个结果遇到了怀疑。例如,一种反对意见是,引起这种行为的原因是:眼睛把光散射到视网膜的其他位置,对应于病人可见的视野。但似乎并非如此,特别是现在表明照射到盲点的光不能产生这种效应。(回想一下,在盲点没有光感受器,因此不会对光反应。另一方面,盲视病人的光感受器是完好的,并能检测信号。最初损伤的是视皮层。)进一步的实验已经回答了所有这些反对意见,目前对于盲视是个真实的现象已没什么可怀疑的了。
①如果一个神经元的所有输出只到达死亡的神经元,它本身往往也会死去。
第十三章 神经网络
“……我相信,对一个模型的最好的检验是它的设计者能否回答这些问题:‘现在你知道哪些原本不知道的东西?’以及‘你如何证明它是否是对的?’”
――詹姆斯?鲍尔(James M.Bower)
神经网络是由具有各种相互联系的单元组成的集合。每个单元具有极为简化的神经元的特性。神经网络常常被用来模拟神经系统中某些部分的行为,生产有用的商业化装置以及检验脑是如何工作的一般理论。
神经科学家们究竟为什么那么需要理论呢?如果他们能了解单个神经元的确切行为,他们就有可能预测出具有相互作用的神经元群体的特性。令人遗憾的是,事情并非如此轻而易举。事实上,单个神经元的行为通常远不那么简单,而且神经元几乎总是以一种复杂的方式连接在一起。此外,整个系统通常是高度非线性的。线性系统,就其最简单形式而言,当输入加倍时,它的输出也严格加倍――即输出与输入呈比例关系。①例如,在池塘的表面,当两股行进中的小湍流彼此相遇时,它们会彼此穿过而互不干扰。为了计算两股小水波联合产生的效果,人们只需把第一列波与第二列波的效果在空间和时间的每一点上相加即可。这样,每一列波都独立于另一列的行为。对于大振幅的波则通常不是这样。物理定律表明,大振幅情况下均衡性被打破。冲破一列波的过程是高度非线性的:一旦振幅超过某个阈值,波的行为完全以全新的方式出现。那不仅仅是“更多同样的东西”,而是某些新的特性。非线性行为在日常生活中很普遍,特别是在爱情和战争当中。正如歌中唱的:“吻她一次远不及吻她两次的一半那么美妙。”
如果一个系统是非线性的,从数学上理解它通常比线性系统要困难得多。它的行为可能更为复杂。因此对相互作用的神经元群体进行预测变得十分困难,特别是最终的结果往往与直觉相反。
高速数字计算机是近50年来最重要的技术发展之一。它时常被称作冯.诺依曼计算机,以纪念这位杰出的科学家、计算机的缔造者。由于计算机能像人脑一样对符号和数字进行操作,人们自然地想像脑是某种形式相当复杂的冯?诺依曼计算机。这种比较,如果陷入极端的话,将导致不切实际的理论。
计算机是构建在固有的高速组件之上的。即便是个人计算机,其基本周期,或称时钟频率,也高于每秒1000万次操作。相反地,一个神经元的典型发放率仅仅在每秒100个脉冲的范围内。计算机要快上百万倍。而像克雷型机那样的高速超级计算机速度甚至更高。大致说来,计算机的操作是序列式的,即一条操作接着一条操作。与此相反,脑的工作方式则通常是大规模并行的,例如,从每只眼睛到达脑的轴突大约有100万个,它们全都同时工作。在系统中这种高度的并行情况几乎重复出现在每个阶段。这种连线方式在某种程度上弥补了神经元行为上的相对缓慢性。它也意味着即使失去少数分散的神经元也不大可能明显地改变脑的行为。用专业术语讲,脑被称作“故障弱化”(degrade gracefully)。而计算机则是脆弱的,哪怕是对它极小的损伤,或是程序中的一个小错误,也会引起大的灾难。计算机中出现错误则是灾难性的(degrade catastrophically)。
计算机在工作中是高度稳定的。因为其单个组件是很可靠的,当给定相同的输入时通常产生完全同样的输出。反之,单个神经元则具有更多的变化。它们受可以调节其行为的信号所支配,有些特性边“计算”边改变。
一个典型的神经元可能具有来自各处的上百乃至数万个输入,其轴突又有大量投射。而计算机的一个基本元件――晶体管,则只有极少数的输入和输出。
在计算机中,信息被编码成由0和1组成的脉冲序列。计算机通过这种形式高度精确地将信息从一个特定的地方传送到另一个地方。信息可以到达特定的地址,提取或者改变那里所贮存的内容。这样就能够将信息存入记忆体的某个特殊位置,并在以后的某些时刻进一步加以利用。这种精确性在脑中是不会出现的。尽管一个神经元沿它的轴突发送的脉冲的模式(而不仅仅是其平均发放率)可能携带某些信息,但并不存在精确的由脉冲编码的信息。①这样,记忆必然将以不同的形式“存贮”。
脑看起来一点也不像通用计算机。脑的不同部分,甚至是新皮层的不同部分,都是专门用来处理不同类型的信息的(至少在某种程度上是这样的)。看来大多数记忆存贮在进行当前操作的那个地方。所有这些与传统的冯?诺依曼计算机完全不同,因为执行计算机的基本操作(如加法.乘法等等)仅在一个或少数几个地方,而它的记忆却存贮在许多很不同的地方。
最后,计算机是由工程师精心设计出来的,而脑则是动物经自然选择一代又一代进化而来的。这就产生了如第一章 所述的本质上不同的设计形式。
人们习惯于从硬件和软件的角度来谈论计算机。由于人们编写软件(计算机程序)时几乎不必了解硬件(回路等)的细节,所以人们――特别是心理学家――争论说没必要了解有关脑的“硬件”的任何知识。实际上想把这种理论强加到脑的操作过程中是不恰当的,脑的硬件与软件之间并没有明显的差异。对于这种探讨的一种合理的解释是,虽然脑的活动是高度并行的,在所有这些平行操作的顶端有某些形式的(由注意控制的)序列机制,因而,在脑的操作的较高层次,在那些远离感觉输入的地方,可以肤浅地说脑与计算机有某种相似之处。
人们可以从一个理论途径的成果来对它作判断。计算机按编写的程序执行,因而擅长解决诸如大规模数字处理、严格的逻辑推理以及下棋等某些类型的问题。这些事情大多数人都没有它们完成得那么快、那么好。但是,面对常人能快速、不费气力就能完成的任务,如观察物体并理解其意义,即便是最现代的计算机也显得无能为力。
近几年在设计新一代的、以更加并行方式工作的计算机方面取得了重要进展。大多数设计使用了许多小型计算机,或是小型计算机的某些部件。它们被连接在一起,并同时运行。由一些相当复杂的设备来处理小计算机之间的信息交换并对计算进行全局控制。像天气预测等类似问题,其基本要素在多处出现。此时超级计算机特别有用。
人工智能界也采取了行动设计更具有脑的特点的程序。他们用一种模糊逻辑取代通常计算中使用的严格的逻辑。命题不再一定是真的或假的,而只需是具有更大或更小的可能性。程序试图在一组命题中发现具有最大可能性的那种组合,并以之作为结论,而不是那些它认为可能性较小的结论。
在概念的设置上,这种方法确实比早期的人工智能方法与脑更为相像,但在其他方面,特别是在记忆的存贮上,则不那么像脑。因此,要检查它与真实的脑在所有层次上行为的相似性可能会有困难。
一群原先很不知名的理论工作者发展了一种更具有脑的特性的方法。如今它被称为PDP方法(即平行分布式处理)。这个话题有很长的历史,我只能概述一二。在1943年沃仑?麦卡洛克(Warrenc McCulloch)和沃尔特?皮兹(Walter Pitts)的工作是这方面最早的尝试之一。他们表明,在原则上由非常简单的单元连接在一起组成的“网络”可以对任何逻辑和算术函数进行计算。因为网络的单元有些像大大简化的神经元,它现在常被称作“神经网络”。
这个成就非常令人鼓舞,以致它使许多人受到误导,相信脑就是这样工作的。或许它对现代计算机的设计有所帮助,但它的最引人注目的结论就脑而言则是极端错误的。
下一个重要的进展是弗兰克?罗森布拉特(Frank Rosenblatt)发明的一种非常简单的单层装置,他称之为感知机(Perceptron)。意义在于,虽然它的连接最初是随机的,它能使用一种简单而明确的规则改变这些连接,因而可以教会它执行某些简单的任务,如识别固定位置的印刷字母。感知机的工作方式是,它对任务只有两种反应:正确或是错误。你只需告诉它它所作出的(暂时的)回答是否正确。然后它根据一种感知机学习规则来改变其连接。罗森布拉特证明,对于某一类简单的问题――“线性可分”的问题――感知机通过有限次训练就能学会正确的行为。
由于这个结果在数学上很优美,从而吸引了众人的注目。只可惜它时运不济,它的影响很快就消退了。马文?明斯基(MarVinMinsky)和西摩?佩伯特(Segmour Papert)证明感知机的结构及学习规则无法执行“异或问题”(如,判断这是苹果还是桔子,但不是二者皆是),因而也不可能学会它。他们写了一本书,通篇详述了感知机的局限性。这在许多年内扼杀了人们对感知机的兴趣(明斯基后来承认做得过分了)。此问大部分工作将注意力转向人工智能方法。①
用简单单元构建一个多层网络,使之完成简单的单层网络所无法完成的异或问题(或类似任务),这是可能的。这种网络必定具有许多不同层次上的连接,问题在于,对哪些最初是随机的连接进行修改才能使网络完成所要求的操作。如果明斯基和佩伯特为这个问题提供了解答,而不是把感知机打入死路的话,他们的贡献会更大些。
下一个引起广泛注意的发展来自约翰?霍普菲尔德(John Hop-field),一位加利福尼亚州理工学院的物理学家,后来成为分子生物学家和脑理论家。1982年他提出了一种网络,现在被称为霍普菲尔德网络(见图53)。这是一个具有自反馈的简单网络。每个单元只能有两种输出:一1(表示抑制)或十1(表示兴奋)。但每个单元具有多个输入。每个连接均被指派一个特定的强度。在每个时刻单元把来自它的全部连接的效果(2)总和起来。如果这个总和大于0则置输出状态为十1(平均而言,当单元兴奋性输入大于抑制性输人时,则输出为正),否则就输出一1。有些时候这意味着一个单元的输出会因为来自其他单元的输入发生了改变而改变。
尽管如此,仍有不少理论工作者默默无闻地继续工作。这其中包括斯蒂芬.格罗斯伯格(stephen Grossberg),吉姆?安德森(Jim Anderson),托伊沃.科霍宁(TeuvoKohonen)和戴维?威尔肖(Devid Willshaw)。(2)每个输入对单元的影响是将当前的输入信号(+1或-1)与其相应的权值相乘而得到的。(如果当前信号是-1,权重是+2,则影响为-2。)
计算将被一遍遍地反复进行,直到所有单元的输出都稳定为止。①在霍普菲尔德网络中,所有单元的状态并不是同时改变的,而是按随机次序一个接一个进行,霍普菲尔德从理论上证明了,给定一组权重(连接强度)以及任何输入,网络将不会无限制地处于漫游状态,也不会进入振荡,而是迅速达到一个稳态。①
霍普菲尔德的论证令人信服,表达也清晰有力。他的网络对数学家和物理学家有巨大的吸引力,他们认为终于找到了一种他们可以涉足脑研究的方法(正如我们在加利福尼亚州所说的)。虽然这个网络在许多细节上严重违背生物学,但他们并不对此感到忧虑。
如何调节所有这些连接的强度呢?194年,加拿大心理学家唐纳德?赫布(DonaldHebb)出版了《行为的组织》一书。当时人们就像现在一样普遍相信,在学习过程中,一个关键因素是神经元的连接(突触)强度的调节。赫布意识到,仅仅因为一个突触是活动的,就增加其强度,这是不够的。他期望一种只在两个神经元的活动相关时才起作用的机制。他的书中有一个后来被广泛引用的段落:“当细胞A的一个轴突和细胞B 很近,足以对它产生影响,并且持久地、不断地参与了对细胞B 的兴奋,那么在这两个细胞或其中之一会发生某种生长过程或新陈代谢变化,以致于A作为能使B 兴奋的细胞之一,它的影响加强了。”这个机制以及某些类似规则,现在称为“赫布律”。
霍普菲尔德在他的网络中使用了一种形式的赫布规则来调节连接权重。对于问题中的一种模式,如果两个单元具有相同的输出,则它们之间的相互连接权重都设为+1。如果它们具有相反的输出,则两个权重均设为-1。大致他说,每个单元激励它的“朋友”并试图削弱它的“敌人”。
霍普菲尔德网络是如何工作的呢?如果网络输入的是正确的单元活动模式,它将停留在该状态。这并没有什么特别的,因为此时给予它的就是答案。值得注意的是,如果仅仅给出模式的一小部分作为“线索”,它在经过短暂的演化后,会稳定在正确的输出即整个模式上,在不断地调节各个单元的输出之后,网络所揭示的是单元活动的稳定联系。最终它将有效地从某些仅仅与其存贮的“记忆”接近的东西中恢复出该记忆,此外,这种记忆也被称作是按“内容寻址”的――即它没有通常计算机中具有的分离的、唯一用于作为“地址”的信号。输入模式的任何可察觉的部分都将作为地址。这开始与人的记忆略微有些相似了。
请注意记忆并不必存贮在活动状态中,它也可以完全是被动的,因为它是镶嵌在权重的模式之中的即在所有各个单元之间的连接强度之中。网络可以完全不活动(所有输出置为0),但只要有信号输入,网络突然活动起来并在很短时间内进入与其应当记住的模式相对应的稳定的活动状态。据推测,人类长期记忆的回忆具有这种一般性质(只是活动模式不能永久保持)。你能记住大量现在一时想不起来的事情。
神经网络(特别是霍普菲尔德网络)能“记住”一个模式,但是除此以外它还能再记住第二个模式吗?如果几个模式彼此不太相似,一个网络是能够全部记住这几个不同模式,即给出其中一个模式的足够大的一部分,网络经过少数几个周期后将输出该模式。因为任何一个记忆都是分布在许多连接当中的,所以整个系统中记忆是分布式的。因为任何一个连接都可能包含在多个记忆中,因而记忆是可以叠加的。此外,记忆具有鲁棒性,改变少数连接通常不会显著改变网络的行为。
为了实现这些特性就需要付出代价,这不足为奇。如果将过多的记忆加到网络之中则很容易使它陷入混乱。即使给出线索,甚至以完整的模式作为输入,网络也会产生毫无意义的输出。①
有人提出这是我们做梦时出现的现象(弗洛伊德称之为“凝聚”――condensation),但这是题外话。值得注意的是,所有这些特性是“自然发生”的。它们并不是网络设计者精心设置的,而是由单元的本性、它们连接的模式以及权重调节规则所决定的。
霍普菲尔德网络还有另一个性质,即当几个输人事实上彼此大致相似时,在适当计算网络的连接权重后,它“记住”的将是训练的模式的某种平均。这是另一个与脑有些类似的性质。对我们人类而言,当我们听某个特定的声调时,即便它在一定范围内发生变化,我们也会觉得它是一样的。输入是相似但不同的,而输出――我们所听到的――则是一样的。
这些简单网络是不能和脑的复杂性相提并论的,但这种简化确实使我们可能对它们的行为有所了解,即使是简单网络中出现的特点也可能出现在具有相同普遍特性的更复杂的网络中,此外,它们向我们提供了多种观点,表明特定的脑回路所可能具有的功能。例如,海马中有一个称为CA3的区域,它的连接事实上很像一个按内容寻址的网络。当然,这是否正确尚需实验检验。
有趣的是,这些简单的神经网络具有全息图的某些特点。在全息图中,几个影像可以彼此重叠地存贮在一起;全息图的任何一部分都能用来恢复整个图像,只不过清晰度会下降;全息图对于小的缺陷是鲁棒的。对脑和全息图两者均知之甚少的人经常会热情地支持这种类比。几乎可以肯定这种比较是没有价值的。原因有两个。详细的数学分析表明神经网络和全息图在数学上是不同的。更重要的是,虽然神经网络是由那些与真实神经元有些相似的单元构建的,没有证据表明脑中具有全息图所需的装置或处理过程。(1)
一本更新的书产生了巨大的冲击力,这就是戴维?鲁梅尔哈特(David Rumelhart)、詹姆斯?麦克莱兰(James McClelland)和PDP小组所编的一套很厚的两卷著作《平行分布式处理》(1)。该书于1986年问世,并很快至少在学术界成为最畅销书。名义上我也是PDP小组的成员,并和浅沼智行(Chiko Asanuma)合写了其中的一个章节。不过我起的作用很小。我几乎只有一个贡献,就是坚持要求他们停止使用神经元一词作为他们网络的单元。
加利福尼亚州立大学圣迭戈分校心理系离索尔克研究所仅有大约一英里。在70年代末80年代初我经常步行去参加他们的讨论小组举行的小型非正式会议。那时我时常漫步的地方如今已变成了巨大的停车场。生活的步伐越来越快,我现在已改为驱车飞驰于两地之间了。
研究小组当时是由鲁梅尔哈特和麦克莱兰领导的,但是不久麦克莱兰就离开前往东海岸了。他们俩最初都是心理学家,但他们对符号处理器感到失望并共同研制了处理单词的“相互作用激励器”的模型。在克里斯托夫?朗格特-希金斯(Christopher Longuet-Higgins)的另一位学生杰弗里?希尔顿(Geoffrey Hinton)的鼓励下,他们着手研究一个更加雄心勃勃的“联结主义”方案。他们采纳了平行分布式处理这个术语,因为它比以前的术语――联想记忆②――的覆盖面更广。
在人们发明网络的初期,一些理论家勇敢地开始了尝试。他们把一些仍显笨拙的小型电子回路(其中常包括有老式继电器)连接在一起来模拟他们的非常简单的网络。现在已发展出了复杂得多的神经网络,这得益于现代计算机的运算速度得到了极大的提高,也很便宜。现在可以在计算机(这主要是数字计算机)上模拟检验关于网络的新思想,而不必像早期的研究那样仅靠粗糙的模拟线路或是用相当困难的数学论证。
1986年出版的《平行分布式处理》一书从1981年底开始经过了很长时间的酝酿。这很幸运,因为它是一个特殊算法的最新发展(或者说是它的复兴或应用),在其早期工作基础上,很快给人留下了深刻的印象。该书的热情读者不仅包括脑理论家和心理学家,还有数学家、物理学家和工程师,甚至有人工智能领域的工作者。不过后者最初的反应是相当敌视的。最终神经科学家和分子生物学家也对它的消息有所耳闻。
该书的副标题是“认知微结构的探索”。它是某种大杂烩,但是其中一个的特殊的算法产生了惊人的效果。该算法现在称作“误差反传算法”,通常简称为“反传法”。为了理解这个算法,你需要知道一些关于学习算法的一般性知识。
在神经网络有些学习形式被称作是“无教师的”。这意味着没有外界输入的指导信息。对任何连接的改变只依赖于网络内部的局部状态。简单的赫布规则具有这种特点。与之相反,在有教师学习中,从外部向网络提供关于网络执行状况的指导信号。
无教师学习具有很诱人的性质,因为从某种意义上说网络是在自己指导自己。理论家们设计了一种更有效的学习规则,但它需要一位“教师”来告诉网络它对某些输入的反应是好、是差还是很糟。这种规则中有一个称作“δ律”。
训练一个网络需要有供训练用的输入集合,称作“训练集”。很快我们在讨论网络发音器(NETtalk)时将看到一个这样的例子。这有用的训练集必须是网络在训练后可能遇到的输入的合适的样本。通常需要将训练集的信号多次输入,因而在网络学会很好地执行之前需要进行大量的训练。其部分原因是这种网络的连接通常是随机的。而从某种意义上讲,脑的初始连接是由遗传机制控制的,通常不完全是随机的。
网络是如何进行训练的呢?当训练集的一个信号被输入到网络中,网络就会产生一个输出。这意味着每个输出神经元都处在一个特殊的活动状态。教师则用信号告诉每个输出神经元它的误差,即它的状态与正确之间的差异,δ这个名称便来源于这个真实活动与要求之间的差异(数学上δ常用来表示小而有限的差异)。网络的学习规则利用这个信息计算如何调整权重以改进网络的性能。
Adaline网络是使用有教师学习的一个较早的例子。它是1960年由伯纳德?威德罗(Bernard widrow)和霍夫(M.E.Hoff)设计的,因此δ律又称作威德罗-霍夫规则。他们设计规则使得在每一步修正中总误差总是下降的。①这意味着随着训练过程网络最终会达到一个误差的极小值。这是毫无疑问的,但还不能确定它是真正的全局极小还是仅仅是个局域极小值。用自然地理的术语说就是,我们达到的是一个火山口中的湖,还是较低的池塘。海洋,还是像死海那样的凹下去的海(低于海平面的海)?
训练算法是可以调节的,因而趋近局域极小的步长可大可小。如果步长过大,算法会使网络在极小值附近跳来跳去(开始时它会沿下坡走,但走得太远以致又上坡了)。如果步子小,算法就需要极长的时间才能达到极小值的底端。人们也可以使用更精细的调节方案。
反传算法是有教师学习算法中的一个特殊例子。为了让它工作,网络的单元需要具有一些特殊性质。它们的输出不必是二值的(即,或0,或者+1或-1),而是分成若干级。它通常在0到+1之间取值。理论家们盲目地相信这对应于神经元的平均发放率(取最大发放率为+1),但他们常常说不清应该在什么时候取这种平均。
如何确定这种“分级”输出的大小呢?像以前一样,每个单元对输入加权求和,但此时不再有一个真实的阈值。如果总和很小,输出几乎是0。总和稍大一些时,输出便增加。当总和很大时,输出接近于最大值。图54所示的S形函数(sigmoid函数)体现了这种输入总和与输出间的典型关系。如果将一个真实神经元的平均发放率视为它的输出,那么它的行为与此相差不大。
这条看似平滑的曲线有两个重要性质。它在数学上是“可微的”,即任意一处的斜率都是有限的;反传算法正依赖于这个特性。更重要的是,这条曲线是非线性的,而真实神经元即是如此。当(内部)输入加倍时输出并不总是加倍。这种非线性使得它能处理的问题比严格的线性系统更加广泛。
现在让我们看一个典型的反传网络。它通常具有三个不同的单元层(见图55)。最底层是输入层。下一层被称作“隐单元”层,因为这些单元并不直接与网络外部的世界连接。最顶层是输出层。最底层的每个单元都与上一层的所有单元连接。中间层也是如此。网络只有前向连接,而没有侧向连接,除了训练以外也没有反向的投射。它的结构几乎不能被简化。
训练开始的时候,所有的权重都被随机赋值,因而网络最初对所有信号的反应是无意义的。此后给定一个训练输入,产生输出并按反传训练规则调节权重。过程如下:在网络对训练产生输出以后,告诉高层的每个单元它的输出与“正确”输出之间的差。单元利用该信息来对每个从低层单元达到它的突触的权重进行小的调整。然后它将该信息反传到隐层的每个单元。每个隐层单元则收集所有高层单元传未的误差信息,并以此调节来自最底层的所有突触。
从整体上看具体的算法使得网络总是不断调节以减小误差。这个过程被多次重复。(该算法是普适的,可以用于多于三层的前向网络。)
经过了足够数量的训练之后网络就可以使用了。此时有一个输入的测试集来检验网络。测试集是经过选择的,它的一般(统计)特性与训练集相似,但其他方面则不同。(权重在这个阶段保持不变,以便考察训练后网络的行为。)如果结果不能令人满意,设计者会从头开始,修改网络的结构、输入和输出的编码方式、训练规则中的参数或是训练总数。
所有这些看上去显得很抽象。举个例子或许能让读者清楚一些。特里?塞吉诺斯基和查尔斯?罗森堡(Charles Rosenberg)在1987年提供了一个著名的演示。他们把他们的网络称为网络发音器(NETtalk)。它的任务是把书写的英文转化成英文发音。英文的拼法不规则,这使它成为一门发音特别困难的语言,因而这个任务并不那么简单易行。当然,事先并不把英语的发音规则清楚地告诉网络。在训练过程中,网络每次尝试后将得到修正信号,网络则从中学习。输入是通过一种特殊的方式一个字母接一个字母地传到网络中。NETtalk的全部输出是与口头发音相对应的一串符号,为了让演示更生动,网络的输出与一个独立的以前就有的机器(一种数字发音合成器)耦合。它能将NETtallk的输出变为发音,这样就可以听到机器“朗读”英语了。
由于一个英语字母的发音在很大程度上依赖于它前后的字母搭配,输入层每次读入一串7个字母。①输出层中的单元与音素所要求的21个发音特征②相对应,还有5个单元处理音节分界和重音。图56给出了它的一般结构。③
他们使用了两段文字的摘录来训练网络,每段文字都附有训练机器所需的标音法。第一段文字摘自梅里亚姆-韦伯斯特袖珍词典。第二段摘录则多少有些令人奇怪,是一个小孩的连续说话。初始权重具有小的随机值,并在训练期内每处理一个词更新一次。他们编写程序使得计算机能根据提供的输入和(正确的)输出信息自动地完成这一步。在对真实的输出进行判断时,程序会采纳一个与真实发音最接近的音素作为最佳猜测,通常有好几个“发音”输出单元对此有关系。
聆听机器学着“读”英语是一件令人着迷的事情。①最初,由于初始连接是随机的,只能听到一串令人困惑的声音。NETtalk很快就学会了区分元音和辅音。但开始时它只知道一个元音和一个辅音,因此像在咿呀学语。后来它能识别词的边界,并能发出像词那样的一串声音。在对训练集进行了大约十次操作之后,单词变得清楚,读的声音也和幼儿说话很像了。
实际结果并不完美,在某种情况下英语发音依赖于词意,而NETtalk对此一无所知。一些相似的发音通常引起混淆,如论文(thesis)和投掷(throw)的“th”音。把同一个小孩的另一段例文作为检测,机器完成得很好,表明它能把从相当小的训练集(1024个单词)中学到的推广到它从未遇到的新词上。②这称为“泛化”。
显然网络不仅仅是它所训练过的每一个单词的查询表。它的泛化能力取决于英语发音的冗余度。并不是每一个英语单词都按自己唯一的方式发音,虽然首次接触英语的外国人容易这样想。(这个问题是由于英语具有两个起源造成的,即拉丁语系和日尔曼语系,这使得英语的词汇十分丰富。)
相对于大多数从真实神经元上收集的资料而言,神经网络的一个优点在于在训练后很容易检查它的每一个隐单元的感受野。一个字母仅会激发少数几个隐单元,还是像全息图那样它的活动在许多隐单元中传播呢?答案更接近于前者。虽然在每个字母一发音对应中并没有特殊的隐单元,但是每个这种对应并不传播到所有的隐单元。
因此便有可能检查隐单元的行为如何成簇的(即具有相同的特性)。塞吉诺斯基和罗森堡发现“……最重要的区别是元音与辅音完全分离,然而在这两类之中隐单元簇具有不同的模式,对于元音而言,下一个重要的变量是字母,而辅音成簇则按照了一种混合的策略,更多地依赖于它们声音的相似性。”
这种相当杂乱的布置在神经网络中是典型现象,其重要性在于它与许多真实皮层神经元(如视觉系统中的神经元)的反应惊人地相似,而与工程师强加给系统的那种巧妙的设计截然不同。
他们的结论是:
NETtalk是一个演示,是学习的许多方面的缩影。首先,网络在开始时具有一些合理的“先天”的知识,体现为由实验者选择的输入输出的表达形式,但没有关于英语的特别知识――网络可以对任何具有相同的字母和音素集的语言进行训练。其次,网络通过学习获得了它的能力,其间经历了几个不同的训练阶段,并达到了一种显著的水平。最后,信息分布在网络之中,因而没有一个单元或连接是必不可少的,作为结果,网络具有容错能力,对增长的损害是故障弱化的。此外,网络从损伤中恢复的速度比重新学习要快得多。
尽管这些与人类的学习和记忆很相似,但NETtalk过于简单,还不能作为人类获得阅读能力的一个好的模型。网络试图用一个阶段完成人类发育中两个阶段出现的过程,即首先是儿童学会说话;只有在单词及其含义的表达已经建立好以后,他们才学习阅读。同时,我们不仅具有使用字母-发音对应的能力,似乎还能达到整个单词的发音表达,但在网络中并没有单词水平的表达。注意到网络上并没有什么地方清楚地表达英语的发音规则,这与标准的计算机程序不同。它们内在地镶嵌在习得的权重模式当中。这正是小孩学习语言的方式。它能正确他说话,但对它的脑所默认的规则一无所知。①
NETtalk有几条特性是与生物学大为抵触的。网络的单元违背了一条规律,即一个神经元只能产生兴奋性或抑制性输出,而不会二者皆有。更为严重的是,照字面上说,反传算法要求教师信息快速地沿传递向前的操作信息的同一个突触发送回去。这在脑中是完全不可能发生的。试验中用了独立的回路来完成这一步,但对我而言它们显得过于勉强,并不符合生物原型。
尽管有这些局限性,NETtalk展示了一个相对简单的神经网络所能完成的功能,给人印象非常深刻。别忘了那里只有不足500个神经元和2万个连接。如果包括(在前面的脚注中列出的)某些限制和忽略,这个数目将会大一些,但恐怕不会大10倍。而在每一侧新皮层边长大约四分之一毫米的一小块表面(比针尖还小)有大约5000个神经元。因而与脑相比,NETtalk仅是极小的一部分。②所以它能学会这样相对复杂的任务给人印象格外深刻。
另一个神经网络是由西德尼?莱基(Sidney Lehky)和特里?塞吉诺斯基设计的。他们的网络所要解决的问题是在不知道光源方向的情况下试图从某些物体的阴影中推断出其三维形状(第四章 描述的所谓从阴影到形状问题)。对隐层单元的感受野进行检查时发现了令人吃惊的结果。其中一些感受野与实验中在脑视觉第一区(V1区)发现的一些神经元非常相似。它们总是成为边缘检测器或棒检测器,但在训练过程中,并未向网络呈现过边或棒,设计者也未强行规定感受野的形状。它们的出现是训练的结果。此外,当用一根棒来测试网络时,其输出层单元的反应类似于V1区具有端点抑制(end-stopping)的复杂细胞。
网络和反传算法二者都在多处与生物学违背,但这个例子提出了这样一个回想起来应该很明显的问题:仅仅从观察脑中一个神经元的感受野并不能推断出它的功能,正如第十一章 描述的那样,了解它的投射野,即它将轴突传向哪些神经元,也同样重要。
我们已经关注了神经网络中“学习”的两种极端情况:由赫布规则说明的无教师学习和反传算法那样的有教师学习。此外还有若干种常见的类型。一种同样重要的类型是“竞争学习”。①其基本思想是网络操作中存在一种胜者为王机制,使得能够最好地表达了输入的含义的那个单元(或更实际他说是少数单元)抑制了其他所有单元。学习过程中,每一步中只修正与胜者密切相关的那些连接,而不是系统的全部连接。这通常用一个三层网络进行模拟,如同标准的反传网络,但又有显著差异,即它的中间层单元之间具有强的相互连接。这些连接的强度通常是固定的,并不改变。通常短程连接是兴奋性的,而长程的则是抑制性的,一个单元倾向于与其近邻友好而与远处的相对抗。这种设置意味着中间层的神经元为整个网络的活动而竞争。在一个精心设计的网络中,在任何一次试验中通常只有一个胜者。
这种网络并没有外部教师。网络自己寻找最佳反应。这种学习算法使得只有胜者及其近邻单元调节输入权重。这种方式使得当前的那种特殊反应在将来出现可能性更大。由于学习算法自动将权重推向所要求的方向,每个隐单元将学会与一种特定种类的输入相联系。①
到此为止我们考虑的网络处理的是静态的输入,并在一个时间间隔后产生一个静态的输出。很显然在脑中有一些操作能表达一个时间序列,如口哨吹出一段曲调或理解一种语言并用之交谈。人们初步设计了一些网络来着手解决这个问题,但目前尚不深入。(NETtalk确实产生了一个时间序列,但这只是数据传入和传出网络的一种方法,而不是它的一种特性。)
语言学家曾经强调,目前在语言处理方面(如句法规则)根据人工智能理论编写的程序处理更为有效。其本质原因是网络擅长于高度并行的处理,而这种语言学任务要求一定程度的序列式处理。脑中具有注意系统,它具有某种序列式的本性,对低层的并行处理进行操作,迄今为止神经网络并未达到要求的这种序列处理的复杂程度,虽然它应当出现。
真实神经元(其轴突、突触和树突)都存在不可避免的时间延迟和处理过程中的不断变化。神经网络的大多数设计者认为这些特性很讨厌,因而回避它们。这种态度也许是错的。几乎可以肯定进化就建立在这些改变和时间延迟上,并从中获益。
对这些神经网络的一种可能的批评是,由于它们使用这样一种大体上说不真实的学习算法,事实上它们并不能揭示很多关于脑的情况。对此有两种答案。一种是尝试在生物学看来更容易接受的算法,另一种方法更有效且更具有普遍性。加利福尼亚州立大学圣迭戈分校的戴维?齐帕泽(David Zipser),一个由分子生物学家转为神经理论学家,曾经指出,对于鉴别研究中的系统的本质而言,反传算法是非常好的方法。他称之为“神经系统的身份证明”。他的观点是,如果一个网络的结构至少近似于真实物体,并了解了系统足够多的限制,那么反传算法作为一种最小化误差的方法,通常能达到一个一般性质相似于真实生物系统的解。这样便在朝着了解生物系统行为的正确方向上迈出了第一步。
如果神经元及其连接的结构还算逼真,并已有足够的限制被加入到系统中,那么产生的模型可能是有用的,它与现实情况足够相似。这样便允许仔细地研究模型各组成部分的行为。与在动物上做相同的实验相比,这更加快速也更彻底。
我们必须明白科学目标并非到此为止,这很重要。例如,模型可能会显示,在该模型中某一类突触需要按反传法确定的某种方式改变。但在真实系统中反传法并不出现。因此模拟者必须为这一类突触找到合适的真实的学习规则。例如,那些特定的突触或许只需要某一种形式的赫布规则。这些现实性的学习规则可能是局部的,在模型的各个部分不尽相同。如果需要的话,可能会引入一些全局信号,然后必须重新运行该模型。
如果模型仍能工作,那么实验者必须表明这种学习方式确实在预测的地方出现,并揭示这种学习所包含的细胞和分子机制以支持这个观点。只有如此我们才能从这些“有趣”的演示上升为真正科学的有说服力的结果。
所有这些意味着需要对大量的模型及其变体进行测试。幸运的是,随着极高速而又廉价的计算机的发展,现在可以对许多模型进行模拟。这样人们就可以检测某种设置的实际行为是否与原先所希望的相同,但即便使用最先进的计算机也很难检验那些人们所希望的巨大而复杂的模型。
“坚持要求所有的模型应当经过模拟检验,这令人遗憾地带来了两个副产品。如果一个的假设模型的行为相当成功,其设计者很难相信它是不正确的。然而经验告诉我们,若干差异很大的模型也会产生相同的行为。为了证明这些模型哪个更接近于事实,看来还需要其他证据,诸如真实神经元及脑中该部分的分子的准确特性。
另一种危害是,对成功的模型过分强调会抑制对问题的更为自由的想像,从而会阻碍理论的产生。自然界是以一种特殊的方式运行的。对问题过于狭隘的讨论会使人们由于某种特殊的困难而放弃极有价值的想法。但是进化或许使用了某些额外的小花招来回避这些困难。尽管有这些保留,模拟一个理论,即便仅仅为了体会一下它事实上如何工作,也是有用的。
我们对神经网络能总结出些什么呢?它们的基础设计更像脑,而不是标准计算机的结构,然而,它们的单元并没有真实神经元那样复杂,大多数网络的结构与新皮层的回路相比也过于简单。目前,如果一个网络要在普通计算机上在合理的时间内进行模拟,它的规模只能很小。随着计算机变得越来越快,以及像网络那样高度并行的计算机的生产商业化,这会有所改善,但仍将一直是严重的障碍。
尽管神经网络有这些局限性,它现在仍然显示出了惊人的完成任务的能力。整个领域内充满了新观点。虽然其中许多网络会被人们遗忘,但通过了解它们,抓住其局限性并设计改进它们的新方法,肯定会有坚实的发展。这些网络有可能具有重要的商业应用。尽管有时它会导致理论家远离生物事实,但最终会产生有用的观点和发明。也许所有这些神经网络方面的工作的最重要的结果是它提出了关于脑可能的工作方式的新观点。
在过去,脑的许多方面看上去是完全不可理解的。得益于所有这些新的观念,人们现在至少瞥见了将来按生物现实设计脑模型的可能性,而不是用一些毫无生物依据的模型仅仅去捕捉脑行为的某些有限方面。即便现在这些新观念已经使我们对实验的讨论更为敏锐,我们现在更多地了解了关于个体神经元所必须掌握的知识。我们可以指出回路的哪些方面我们尚不足够了解(如新皮层的向回的通路),我们从新的角度看待单个神经元的行为,并意识到在实验日程上下一个重要的任务是它们整个群体的行为。神经网络还有很长的路要走,但它们终于有了好的开端。
============================
①查尔斯?安德森(charles Anderson)和戴维?范?埃森提出脑中有些装置将信息按规定路线从一处传至另一处。不过这个观点尚有争议。
①该网络以一个早期网络为基础。那个网络被称为“自旋玻璃”,是物理学家受一种理论概念的启发而提出的。
①这对应于一个适定的数学函数(称为“能量函数”,来自自旋玻璃)的(局域)极小值。霍普菲尔德还给出了一个确定权重的简单规则以使网络的每个特定的活动模式对应于能量函数的一个极小值。
①对于霍普菲尔德网络而言,输出可视为网络存贮的记忆中与输出(似为“输入”之误――译者注)紧密相关的那些记忆的加权和。
①在1968年,克里斯托夫?朗格特-希金斯(Christopher Longuet-Higgins)从全息图出发发明了一种称为“声音全息记录器”(holophone)的装置。此后他又发明了另一种装置称为“相关图”,并最终形成了一种特殊的神经网络形式。他的学生戴维?威尔肖在完成博士论文期间对其进行了详细的研究。
(2)他们和其他一些想法接近的理论家合作,在1981年完成了《联想记忆的并行模式》,由杰弗里?希尔顿(Geoffrey Hinton)和吉姆?安德森编著。这本书的读者主要是神经网络方面的工作者,它的影响并不像后一本书那样广泛。
(1)PDP即平行分布式处理(Parallel Distributed Processing)的缩写。
①更准确他说是误差的平方的平均值在下降,因此该规则有时又叫做最小均方(LMS)规则。
①29个“字母”各有一个相应的单元;这包括字母表中的26个字母,还有三个表示标点和边界。因而输入层需要29x7=203个单元。
②例如,因为辅音p和b发音时都是以拢起嘴唇开始的,所以都称作“唇止音”。
③中间层(隐层)最初有80个隐单元,后来改为120个,结果能完成得更好。机器总共需要调节大约2万个突触。权重可正可负。他们并没有构造一个真正的平行的网络来做这件事,而是在一台中型高速计算机上(一台VAX 11//780FPA)模拟这个网络。
①计算机的工作通常不够快,不能实时地发音,因而需要先把输出录下来,再加速播放,这样人们才能听明白。
②塞吉诺斯基和罗森堡还表明,网络对于他们设置的连接上的随机损伤具有相当的抵抗力。在这种环境下它的行为是”故障弱化”。他们还试验以11个字母(而不是7个字母)为一组输入。这显著改善了网络的成绩。加上第二个隐单元层并不能改善它的成绩,但有助于网络更好地进行泛化。
①除了上面列出的以外,NEttalk还有许多简化。虽然作者们信奉分布式表达,在输入输出均有“祖母细胞”即,例如有一个单元代表“窗口中第三个位置上的字母a”。这样做是为了降低计算所需要的时间,是一种合理的简化形式。虽然数据顺序传入7个字母的方式在人工智能程序是完全可以接受的,却显得与生物事实相违背。输出的“胜者为王”这一步并不是由“单元”完成的,也不存在一组单元去表达预计输出与实际输出之间的差异(即教师信号)。这些运算都是由程序执行的。
②这种比较不太公平,因为神经网络的一个单元更好的考虑是等价于脑中一小群相神经元。因而更合适的数字大约是8万个神经元(相当于一平方毫米皮层下神经元的数目)。
①它是由斯蒂芬?格罗斯伯格、托伊沃?科霍宁等人发展的。
①我不打算讨论竞争网络的局限性。显然必须有足够多的隐单元来容纳网络试图从提供的输入中所学的所有东西,训练不能太快,也不能太慢,等等。这种网络要正确工作需要仔细设计。毫无疑问,不久的将来会发明出基于竞争学习基本思想的更加复杂的应用。
第十四章 视觉觉知(1)
“宇宙就像一部展现在我们眼前的伟大的著作。哲学就记载在这上面。但是如果我们不首先学习并掌握书写它们所用的语言和符号,我们就无法理解它们。”
――伽利略
现在让我们总瞰一下到目前为止我们所涉及到的领域。本书的主题是“惊人的假说”――即我们每个人的行为都不过是一个拥有大量相互作用的神经元群体活动的体现。克里斯托弗?科赫
(Christof Koch)和我认为探索意识问题的最佳途径是研究视觉觉知,这包括研究人类及其近亲,然而,人们观看事物并不是一件直截了当的事情,它是一个建设性的、复杂的处理过程。心理学研究表明,它具有高度的并行性,又按照一定的顺序加工,而“注意”机制则处于这些并行处理的顶端。心理学家们提出过若干种理论试图来解释视觉过程的一般规律,但没有一种更多地涉及脑中神经元的行为。
脑本身是由神经元及大量支持细胞构成的。从分子角度考虑每个神经元都是一个复杂的对象,常具有无规则的、异乎寻常的形状。神经元是电子信号装置。它们对输入的电学和化学信号快速地作出反应,并将它们的高速电化学脉冲沿轴突发送出去,其传送距离通常比细胞体直径还要大许多倍。脑中的这些神经元数目巨大,它们有许多不同的类型。这些神经元彼此具有复杂的连接。
与大多数现代计算机不同,脑不是一种通用机。在完全发育好以后,脑的每一部分完成某些不同的专门任务。而另一方面,在几乎所有的反应中,都有许多部分相互作用。这种一般性观念得到了人脑研究的支持,这些研究包括对脑损伤者的研究以及使用现代扫描方法从头颅外进行的对人脑的研究。
视觉系统的不同的皮层区的数目比人们所预料的要多得多。它们按一种近似等级的方式连接而成。在较低级的皮层区,神经元到眼睛的连接最短,它们主要对视野中一小块区域中的相对简单的特征敏感,尽管如此,这些神经无也受该区域所处的视觉环境影响。而较高级皮层区的神经元则对复杂得多的视觉目标(如脸或手)有反应,对该物体在视野中的位置并不敏感。(目前看来)似乎并不存在单独的皮层区域与视觉觉知全部内容相对应。
为了理解脑如何工作,我们必须发展出描述神经元集团间如何相互作用的理论模型。目前这些模型对神经元进行了过分的简化。尽管现代计算机比其上一代在运算速度上快得多,也只能对数目很少的一群这类简化神经元及其相互作用进行模拟。尽管如此,虽然这些不同类型的简化模型仍显原始:却经常表现出一些令人吃惊的行为。这些行为与脑的某些行为有相似之处。它们为我们研究脑所可能采取的工作方式提供了新的途径。
以上是背景知识。在此基础上,我们着手解决视觉觉知问题,即:如何从神经元活动的角度来解释我们所看见的事物。换句话说,视觉觉知的“神经关联”是什么?这些“觉知神经元”究竟位于何处呢?它们是集中在一小块地方还是分散在整个脑中?它们的行为是否有什么特别之处?
作为开始,让我们首先回顾一下第二章 曾概述的各种观点。视觉觉知究竟包括哪种心理学处理过程呢?如果我们能够找出这些不同的处理过程在脑中的确切位置,那或许会对定位我们所寻找的觉知神经元有所帮助。
菲力普?约翰逊-莱尔德认为,脑和现代计算机一样,具有一个操作系统。该操作系统的行为与意识相对应。他在著作《心理模型》(Mental Medels)一书中,从更加广阔的背景下提出了这一思想。他认为,有意识和无意识过程的区别在于后者是脑中高度的并行处理的结果。正如我已在视觉系统中所描述的那样,这种并行处理就是大量的神经元能够同时工作,而不是序列式地一个接一个地处理信息。这才能使有机体有可能进化成具有特殊的、运转快速的感觉、认知及运动系统。而更为序列式的操作系统对所有这些活动进行全局控制,这样才能够快速、灵活地作出决定。粗略地打个比方,这就好像一个管弦乐队的指挥(相当于操作系统)控制着乐队所有成员同时演奏一样。
约翰逊-莱尔德假定,虽然这个操作系统可以监视它所控制的神经系统的输出,它能利用的只是它们传递给它的结果,而不是它们工作的细节。我们通过内省只能感觉到我们脑中所发生的情形的很少的一部分。我们无法介人能产生信息并传给脑的操作系统的许多运作中。因为他将操作系统视为主要是序列式的,所以他认为,“在内省时,我们倾向于迫使本来是并行的概念进入序列式的狭窄束缚中。”这是使用内省法会出现错误的原因。
约翰逊-莱尔德的观点表达得很清楚,又很有说服力。但是,如果我们希望从神经的角度理解脑,还必须要识别该操作系统的位置和本质。它不一定与现代计算机的许多特性相一致。脑的操作系统可能并不是清晰地定位于某一特殊位置上。从两种意义上说,它更像是分布式的:它可能涉及脑中相互作用的若干分离的部分,而其中某一部分的活动信息又会分散到许多神经元。约翰逊-莱尔德对脑的操作系统的描述使人多少想起丘脑,但是丘脑的神经元太少了,以致于无法表达视觉觉知的全部内容(虽然这是可以验证的)。似乎更有可能的是,在丘脑的影响下新皮层的部分神经元(而不是全部神经元)可以表达视觉觉知。
我们寻找的觉知的神经关联会处于脑功能等级的哪个阶段呢?约翰逊-莱尔德认为,操作系统处在处理等级的最高层次,而雷?杰肯道夫认为觉知与中间层次有更多联系。究竟哪种观点更合理呢?
杰肯道夫关于视觉觉知的观点①是基于戴维?马尔(Davidmarr)的2.5维图而不是三维模型的思想的(大致说是第六章 所描述的以观察者为中心的可见表面的表象)。这是由于人们直接感受到的只是视野中物体呈现的那一侧;物体后面存在看不见的部分则仅仅是推测。另一方面,他相信对视觉输入的理解(即我们感觉到的是什么)是由三维模型和“概念结构”(conceptua1structure,是思维的另一种堂皇的说法)决定的。以上就是他的意识的中间层次理论。
下面的例子会有助于理解这个理论。如果你看见一个背对着你的人,你只能看见他的后脑勺,而看不见他的脸。然而,你的脑会推断出他有一张脸。我们会这样进行推理,因为如果他转过身来,表明他的头的正面并没有脸,你会感到十分惊讶的。以观察者为中心的表象是与你所看见的他的头的后部相对应的。这是你所真实感觉到的。你的脑所做出的关于其正面的推断是从某种三维模型表象得到的。杰肯道夫认为你并不直接察觉这个三维模型(就此而言,同样你也没有直接察觉你自己的思想)。正如一句古诗所说:未闻吾所言,安知吾所思?
由于初读杰肯道夫的著作①时不容易理解他的语言,我把他的理论的倒数第二种说法放在脚注中。②如果我对他的理论的理解是正确的话,他的观点应用于视觉即是“形态上的差异”(包括一个视觉目标的位置、形状、颜色、运动等)是与一种短时记忆有关(或由它引起/支持/投射)的表象,这种表象是一种“胜者为王”机制(一种选择机制)的结果,而注意机制的作用则使它更加丰富。
杰肯道夫的观点的价值在于,它提醒我们不要假设脑的最高层次必定是视觉觉知中涉及的唯一层次。我们面前的场景在脑中的栩栩如生的表象可能涉及了许多中间层次,其他层次可能不够生动,或者如他所推测,我们可能根本不能察觉它们(的活动)。
这并不意味着信息仅仅是从表面表象流向三维表象;几乎可以肯定双向流动是存在的。在上面的例子中,当你想像一张脸孔的正面时,你所感觉到的正是由无法感知的三维模型产生的可感知的表面表象。随着这一主题的发展,两种表象之间的区别或许还需进一步明确,但它对我们试图解释的问题给出了一种最初的、粗略的看法。
目前尚不清楚这些层次在皮层中的准确位置。就视觉而言,它们更可能对应于脑的中部(如下颞叶及某些顶区),而不是脑的额区,但是杰肯道夫所指的究竟是视觉等级系统(见图52)中哪个部分,这仍有待于探索(第十六章 将就此作更详细的讨论)。
在看了一些心理学家对这个问题的观点之后,我们现在再从那些了解神经元、它们的连接以及发放方式的神经科学家的角度来看这个难题。与意识有关(或无关)的神经元的行为的一般特征是什么?换句话说,意识的“神经关联”是什么?从某种意义上说,神经元的活动对意识是必不可少的,这看起来是合理的。意识可能与皮层中某些神经元的一种特殊类型的活动有关。毫无疑问它会具有不同的形式,这取决于皮层的哪些部分参与活动。科赫和我假设其中仅有一种(或少数几种)基本机制。我们认为,在任意时刻意识将会与瞬间的神经元集合的特定活动类型相对应。这些神经元正是具有相当潜力的候选者的集合中的一部分。因此,在神经水平上,这个问题即为:
?这些神经元在脑中位于何处?
?它们是否属于某些特殊的神经元类型呢?
?如果它们的连接具有特殊性,那是什么?
?如果它们的发放存在某些特殊方式,那是什么?
怎样去寻找那些与视觉觉知有关的神经元呢?是否存在某些线索暗示了与这种觉知相关的神经发放的模式呢?
正如我们已经看到的,心理学理论对我们有若干提示。某些形式的注意很有可能参与了觉知过程,因而我们应当研究脑选择性注意视觉目标的机制。觉知过程很有可能包括某些形式的极短时记忆,因而我们还应探索神经元贮存和使用这种记忆时的行为。最后,我们似乎可以一次注意多个目标,这对觉知的某些神经理论提出了问题,因此我们从论述这个问题开始。
当我们看见一个物体时,脑子里究竟发生了些什么呢?我们会看到的可能存在的、不同的物体几乎是无限的。不可能对每个物体都存在一个相应的响应细胞(这种细胞常被称为“祖母细胞”)。表达如此多具有不同深度、运动、颜色、朝向及空间位置的物体,其可能的组合大得惊人。不过这并不排除可能存在某些特异化的神经元集团,它们对相当特定的、生态上有重要意义的目标(如脸的外貌)有响应。
似乎有可能的是,在任意时刻,视野中每个特定的物体均由一个神经元集团的发放来表达。①由于每个物体具有不同的特征,如形状、颜色、运动等,这些特征由若干不同的视觉区域处理,因而有理由假设看每一个物体经常有许多不同视觉区域的神经元参与。这些神经元如何暂时地变成一个整体同时兴奋呢?这个问题常被称为“捆绑问题”(bindingproblem)。由于视觉过程常伴随听觉、嗅觉或触觉,这种捆绑必然也出现在不同感觉模块之间。②
我们都有这种体验,即对物体有整体知觉。这使我们认为,对于已看见的物体的不同特征,所有神经元都产生积极的响应,而脑则通过某种方式相互协调地把它们捆绑在一起。换句话说,如果你把注意力正集中在与你讨论某个观点的朋友上,那么,你脑中有些神经元对他的脸部运动反应,有些对脸的颜色反应,听觉皮层中的神经元则对他的讲的话有反应,还可能有贮存的关于这张脸属于哪个人的那些记忆痕迹,所有这些神经元都将捆绑在一起,以便携带相同的标记以表明它们共同生成了对那张特定的脸的认知。(有时候脑也会受骗而做出错误的捆绑,比如把听到的口技表演者的声音当作是被模仿物发出的。)
捆绑有若干种形式。一个对短线响应的神经元可以认为把组成该直线的各点捆绑在一起。这种神经元的输入和行为最初可能是由基因(及发育过程)确定的,这些基因是我们远古的祖先的经验进化的结果。另一种形式的捆绑,如对熟悉物体的识别,又如熟悉的字母表中的字母,可能从频繁的、重复性的体验中获得,也就是说,是通过反复学习得到的。这或许意味着参与某个过程的大量神经元最终彼此有紧密的连接。①这两种形式的相当永久的捆绑可以产生一些神经元群体,它们作为整体可以对许多物体(如字母、数字及其他熟悉的符号)作出反应。但脑中不可能有足够多的神经元去编码几乎无穷数目的可感知的物体。对语言也是如此。每种语言都有大量但却是数目有限的单词,而形式正确的句子的数目却几乎是无限的。
我们最为关心的是第三种形式的捆绑。它既不是由早期发育确定的,也不是由反复学习得到的。它特别适用于那些对我们而言比较新奇的物体,比如说我们在动物园里看见的一只新来的动物。在多数情况下,积极地参与该过程的神经元之间未必有较强的连接。这种捆绑必须能够快速实现。因此它主要是短暂的,并必须能够将视觉特征捆绑在一起构成几乎无限多种可能的组合,只不过也许在某一时刻它只能形成不多的几种组合。如果一种特定的刺激频繁地出现,这种第三种形式的瞬间的捆绑终将会建立起第二种形式的捆绑即反复学习获得的捆绑。
遗憾的是,我们并不了解脑如何表达第三种形式的捆绑。特别不清楚的是,在集中注意的觉知时,我们究竟每次仅仅感知一个物体,还是可以同时感知多个物体。表面上看,我们每次能感觉的绝不只一个物体,但这是否可能是错觉呢?脑真的能如此快速一个接一个地处理多个物体的信息,以致它们好像同时出现在我们脑海中吗?也许我们每次只能注意一个物体,但在注意之后,我们可以大致记住其中几个。因为我们并不确切知道,所以我们必须考虑所有这些可能性。让我们先假设脑每次只能处理一个物体。
究竟哪种类型的神经活动可能与捆绑有关呢?当然,意识的神经关联可能仅仅包含一种特殊类型的神经元,比如说,某个特殊皮层上的一种锥体细胞。一种最为简单的观点是,当这个特殊神经元集团的某些成员以一个相当高的频率发放(比如大约4oo或500Hz),或维持一段适当长时期的发放,此时觉知便出现了。这样,捆绑仅仅对应于皮层神经元中相当小的一部分,它们在皮层中若干不同的区域同时高频发放(或都发放很长一段时间)。看起来这会有两个结果:这种快速或持续性的发放将增强这个兴奋的神经元集团对所投射到的神经元的影响,而这些被影响的神经元则对应于此时脑所觉知的物体的“意义”。同时,这种快速的(或持续的)发放将激活某种形式的极短时记忆。
然而如果脑能同时精确地觉知不只一个物体,那么这种观点就不能成立。即便脑每次只处理一个物体,它也必须区分目标和背景。为了理解这一点,不妨想像在一个视野中靠近视觉中央的地方,恰好有一个红色的圆和一个蓝色的方块。那么,对应于觉知的某些神经元将会快速发放(或持续发放一段时间),有些标识红色,有些标识蓝色,其他一些标识圆,当然还有一些标识方块。脑又怎样知道哪种颜色与哪种形状相互搭配呢?换句话说,如果觉知仅仅对应于快速(或持续)的发放,脑多半会将不同物体的属性混在一起。
有许多方法可以解决这个困难。或许只有当脑注意某个物体时才会形成对它的生动的觉知。或许注意机制使对被注意的物体反应的神经元的活动增强,同时削弱对其他物体反应的神经元的活动。倘若如此,脑只能随着注意机制从一个物体跳跃到另一个物体,一个接一个地进行处理,毕竟,当我们转动眼睛时,情形是这样的。我们先注意视野中的一部分区域,然后转而注意另一区域,如此下去。由于我们不动眼睛就能同时看见多个物体,故注意机制的速度必须比上述情况要快,并能在眼的两次转动之间工作。
第二种替代的解释是,注意机制以某种方式使不同的神经元以多少不同的方式发放,此时的关键在于相关发放。①它基于这样一种观点,即重要的不仅仅在于神经元的平均发放率,更是每个神经元发放的精确时间,为简单起见,让我们仅仅考虑两个物体。
对第一个物体的特征反应的神经元都在同一时刻以某种模式发放,相应于第二个物体的神经元也都同时发放,但发放的时间与第一个神经元集团不同。
举个理想化的例子可以把这个问题讲得更清楚。假设第上集团中的神经元发放很快。或许它们还会再次发放,比如说是在l00毫秒以后。同样,在第二簇发放后过100毫秒又再次发放,如此下去。假设第二群神经元也同样每隔大约100毫秒发放一簇高速脉冲,但是只在第一群神经元处于静息状态的时候才发放。这样,脑中的其他部分不会把这两群神经元的发放混在一起,因为它们从不会同时发放①。
此处的基本观点是:同时到达一个神经元的许多脉冲将比不同时刻到达的同样数目的脉冲产生更大的效果。②其理论要求是同一群神经元的发放有较强的关联,同时不同群的神经元之间关联较弱,甚至根本没有关联。③
*****
让我们回到我们的主要问题上。这就是定位“觉知”神经元并揭示使它们的发放象征着我们所看见的东西的机制是什么。这就像试图侦破一个神秘的谋杀案。我们了解受害者(觉知的本质)的一些线索,还知道可能与犯罪有关的许多杂乱的事实。哪方面进
展看来最有希望呢?由此下一步又该怎么做呢?
最直接的线索将是在现场捉住嫌疑犯。我们能否发现那些行为一直与视觉觉知有关的神经元呢?一种可能的办法是设置一种环境(第三章 描述过的观看内克(Necker)立方体)使进入眼睛的视觉信息保持不变,但知觉却会发生变化。当知觉改变时,哪些神经元会改变其发放,或改变发放的方式,而哪些神经元却不会改变?如果一个特定神经元的发放不随知觉改变,这就提供了一个“它不在现场”的证据。另一方面,如果它的发放确实与知觉有关,我们还需确定它是“真凶”还是“从犯”。
让我们换一种策略。我们能否将案发地点限定在某个特定的城镇、一个区或建筑物中的单元呢?这将使我们的搜索变得更有效,在我们的问题中,即我们能否大致说出视觉觉知神经元在脑中可能的定位呢?显然,我们推测它在新皮层。虽然我们不能完全忽略新皮层的紧密的近邻,如丘脑和屏状核,以及在进化上比较古老的视觉系统(older visua1system)和上丘,更不能忽略纹状体和小脑。视觉觉知不太可能存在于诸如听皮层等区域,因此我们可以将注意力主要集中在图48所示的许多视觉皮层区域。或许我们能发现证据表明某些区域比其他区域被更紧密地牵涉到视觉觉知。
这尚不足以找到凶手,但可能将我们引向正确的方向。罪犯可能是某种特殊类型的人。比如说,一名强壮的男子,一名心理失常的青少年,或者一群匪徒?在此处,可能涉及到哪些类型的神经元呢?是兴奋性神经元?还是抑制性神经元?是星形细胞,还是锥体细胞?如果它们是在皮层上,那么在皮层中哪一层或哪些层才能找到它们呢?
另一种策略将是寻找他们之间是否有某些形式的通讯联系,从而使之露出马脚。如果这是一帮匪徒所为,他们是否在汽车里使用了移动电话?用神经学的术语说,觉知是否依赖于仅仅出现在脑中特定位置上的某些特别形式的神经回路呢?
或许有人会寻找犯罪的动机。凶手犯罪能得到某种利益吗?他是否能得到经济上的好处呢?倘若如此,赃款被运到哪里去了呢?如果我们能在那里找到的话,我们或许就能跟踪追查到凶手。用神经的术语讲,视觉信息被发送到脑中的哪些部位?这些部位又是如何与皮层视觉区域连接的呢?
此外,有人会问是否有某些特殊的行为将我们引至嫌疑犯。这或许是神经元群之间的相关发放,或许是这种或那种形式的节律或模式发放。如果我们怀疑是一群匪徒,谁最可能是头目呢?谁决定匪徒们的行动?我们相信,觉知过程中经常涉及到脑对哪种解释最为合理进行判断。这可能是一种包含某些神经元集团的一种“胜者为王”机制,如果我们能发现这种机制,那么胜者的神经本质也许能将我们指向觉知神经元。作案时是否用过什么特殊的武器呢?正如前面所述,我们很有把握地猜测极短时记忆是觉知的本质特征。同时某些形式的注意机制或许协助产生生动的觉知,因此,我们所知道的关于这些在神经水平的工作的任何知识都将把我们引向正确的方向。
简单他说,通过大量的实验手段能从观念上将我们引导到所寻找的神经元及它们的行为。现阶段,因为我们要解决的问题十分困难,我们不能忽略任何哪怕看起来只有很少希望的线索,现在让我们更仔细地检查这些不同的途径的本质。
=================================
①视觉觉知(visua1aWareness)。在本书中,consciousness和awareness的意思都是意识,只是前者作为范围更广的、比较书面化的词,而后者则更多用于感觉系统(特别是视觉系统),是比较口语化的词(见第一章 脚注),在本书的第一和第二部分,它们均译作“意识”,并不引起歧义。但在第三部分当中,作者以visual awareness作为consciousness研究的突破口,需区分这两个词。故在第三部分(第十四至十八章 )中特将awareness按心理学中译为觉知。――译者注
①将杰肯道夫的观点归纳起来而不曲解他的意思,这并不容易。如果读者希望进一步理解,可以查阅他的书。我并不打算叙述他对音韵学、句法、语义等方面的论点以及他在音乐认知方面的见解。相反地,我将试图精炼他的基本观点,特别是它们在视觉上的应用。
①希望精确理解杰肯道夫的话的读者可以查阅他的著作。(他的理论的最终版本,即理论八.还谈到了情感。)
②他的原话是:“每种觉知形式所表达的形态上的差异是由对应该形式的中间层次的结构引起/支持/投射的。该结构是短时记忆表象的匹配集的一部分,而这种表象则是由选择机制指派的,并为注意处理所丰富。特别地,语言觉知是由音韵结构引起/支持/投射的,音乐觉知则对应于音乐表面,视觉感知来自2.5维图。”
①如果一个集团中的神经无空间上离得很近(意味着它们可能有某种相互连接),接受有些相似的输入,并投射到多少有些相似的区域,那便不会引起任何特别的困难。在这种情况下它们就像是单个神经网络中的神经元。令人遗憾的是,通常这种简单的神经网络每次只能处理一个目标。
②现在还不能完全肯定捆绑问题如我所说的那样真的存在,还是脑通过某种未知的技巧绕了过去。
①回忆一下,大多数皮层神经元具有成千上万的连接,其中很多在开始时很弱,这意味着只有当脑已经大致按正确方法构造好,才可能容易地、正确地进行学习。
①这一观点是克里斯托夫?冯。德?马尔斯博格(christoph von der malsburg)在1981年的一篇相当难懂的文章中提出的。此前,彼得?米尔纳(Peter Milner)及其他人也曾叙述过。
①当然,一个群内轴突的脉冲并不必彼此精确同步。当电位变化沿接受脉冲的神经元的树突传向细胞体时,从时间上看它们的效果会有所扩散。此外,当脉冲沿许多不同轴突传播的时间延迟也有不同。这样,一群神经元的发放时间只需在大约几毫秒范围内是同时的。
②一种稍微详尽的理论引人了轴突传递过程中这种必然发生的时间延迟,使得离细胞体较远的突触比较近的略早地接受到输入,这样,由于树突延迟时间上的小的差异,两个信号的最大效应将同时达到细胞体。更为详细的理论还考虑局部的抑制性神经无产生的抑制性效果的调节。所有这种定性的考虑应可通过小心的模拟定量化,如在计算机上模拟单个神经元在这种环境下的行为方式,并引人时间延迟等因素。
③这种发放下太可能像图57表示的那样有规则。