- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:【原创】因果关系(科学中的因果关系) -- earthcolor
The following is the Chinese translation of Professor Judea Pearl’s lecture transcript at the eighty-first lecture in the UCLA Faculty Research Lectureship Program. The original version is at the web page http://singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm. This translated version may differ from the original version. If you find any confusion or errors in this translated version, please refer to the original version for more information, and please leave your message in this forum. I'd like to thank Professor Judea Pearl for granting permission to translate and to publish his lecture on the web.
下面是朱迪亚.明珠教授 教授在1996年获得加州大学洛杉矶分校研究讲座演讲的中文译稿。原稿的网址是http://singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm。 这个中文译稿有可能和原稿不一致。如果你在中文译稿中发现有语言不妥或错误的地方,请参照原文以获取更多的信息,并请在这个论坛上留言。我非常感谢朱迪亚•明珠教授同意翻译他的演讲稿,并发表在网络上。
朱迪亚.明珠
被授予第八十一届研究讲座**
原因与结果的艺术和科学*
于1996年10月29日星期四的演讲稿,作为加州大学洛杉矶分校第八十一届研究讲座系列的一部分
*本演讲现作为(我的专著)《因果关系:模型,推理与推论》的后记。本书即将由剑桥大学出版社于2000年1月出版(已经出版 – 译者注)。
** (此乃该校最高的学术荣誉 – 译者注)
另外,您也可以打开一个新的网页浏览器,同时查看文本和幻灯片
提醒 – 这个演讲的页面包含很多图片,可能要花一段时间才能下载。
如果需要硬拷贝的话,请联络[email protected]
阅读这个翻译,请配合原幻灯片看,因为有一部分内容在幻灯片里。
The lecture "The Art and Science of Cause and Effect" was delivered by Judea Pearl in 1996, and also appears as Epilogue in his book "Causality" by Cambridge University Press.
原文链接
http://singapore.cs.ucla.edu/LECTURE/lecture_sec2.htm
幻灯片40 :纲要––第2部分
这把我们带到了演讲的第二部分:因果关系的第二个谜可以如何通过结合图形和方程来解决,以及这个解决方案如何使得因果关系的第一谜变得不那么艰巨。
这个解决方案中最重要的思路是:第一,将因果关系看做在干预措施下行为的总结;第二,利用方程和图形作为一个数学语言,有了这样一个语言,因果关系的想法可以被表达和操纵。把这两者结合起来,我们需要第三个概念:把干预措施看做是对方程的一个手术。现在让我们从一个广泛应用因果关系并从未有过任何麻烦的领域:工程,开始。
幻灯片41 :电路图
这里是一个电路图的工程图,它显示了电路信号间的因果关系。这个电路中包含了与门和或门,每一个与或门完成输入和输出之间的特定逻辑功能。让我们仔细地看看这个图,因为它的简单性和熟悉性很容易骗人。这个图实际上是科学最大的奇迹之一。它能够传达比以百万计的代数方程或概率函数或逻辑表达式还多的信息。使得这个图有如此强大功能的是,它有能力预测在正常情况下电路是如何表现的,而且能预测在以百万计的异常情况下电路是如何表现的。举例来说,给定这个电路图,如果一个输入从0变到1,我们可以很容易知道输出将是什么 。这是正常的并可以容易地用一个简单的输入输出方程来表达。现在来看看异常的部分。当我们把Y设置为0、或把它和X接在一起、或者把这个与门换成一个或门、或者我们进行任何百万计的操作组合,我们也可以知道输出是什么。
这个电路图的设计者不会预计到,或者甚至不会考虑这些怪异的干预措施。然而,像奇迹一样,(从这个图中)我们可以预见这些干预措施的后果。如何做呢? 这样的表达能力是哪里来的呢?它来自早期经济学家所谓的自治,即这些图中的与或门表达了独立的机制 – 就是很容易地改变一个与或门而不改变其他的。这个图利用了这种独立性,并正是用那些在干预措施下没有改变的模块描述了电路的正常功能。我在Boelter大厅的同事们,你们肯定怀疑为什么我站在你们面前胡说八道,将一个在工程中微不足道的东西,讲得像发现了世界第八大奇迹一样。我有三个理由这样做。首先,我将尝试演示在工程师认为理所当然的实践中有很多尚未开发的智慧。
幻灯片42 :路径图
第二,我想提醒经济学家和社会科学家这种图解方法的好处。
他们已经断断续续地使用相似的方法超过75年了,那个所谓的结构方程建模和路径图,但近年来他们任由代数的简便性替代了图解表达方式和它的好处。
最后,在我看来这些图表捕捉到了因果关系的本质 ––预测不正常的突发事件和新操作的后果的能力。
举例来说,在这个图里,如果我们改变环境因素,在这里显示为绿色的输入( e ),或者甚至是遗传因素,由父母和后代间的红色中间节点(h)表示,是有可能预测荷兰猪毛皮的模式将会是什么。这种预测不可能从基于代数或者相关性的分析中得到。这样看待因果关系,解释了为什么科学家以这样的热情来追寻因果解释,以及为什么获得因果模型总是伴随着对“深刻理解”和“在控制下”的需求。
幻灯片43 :机械鸭子
“深刻理解”,意味着我们不仅知道事情昨天是如何运作的,而且知道事情在新的假设条件下、在控制条件下如何运作的。有趣的是,当我们有这样的认识后,甚至在我们没有实际可行的途径来控制事物时,我们也有“在控制”的感觉。例如,我们没有任何实际的方法控制天体的运行,不过万有引力理论给了我们理解和控制的感觉,因为它提供了一个假设性控制的蓝图。我们可以预测意想不到的新事件对浪潮的影响,比如,月球被一个流星击中,或万有引力常数突然减到了原来的一半,正如重要的是,万有引力理论给我们保证,在地球上事物的普通操作不控制浪潮。
不足为奇的是,因果模型被看作是区分有意识的推理和本能反应的试金石。鸟类和猴子可能被训练来执行复杂的任务,如修理断了的电线,但是这需要试错的训练。另一方面,深思熟虑的思考者可以预测新操作的结果。
幻灯片44 :方程与图表
让我们放大一部分电路图,这样我们会明白,为什么图可以预测结果,而方程不能。也让我们从逻辑开关转换到线性方程组(使在这里每个人都更容易地接受) ,并假设我们正在处理一个只包含两个部分的系统:一个乘法器和一个加法器。乘法器接受一个输入并给它乘以2;加法器接受一个输入并给它加上1 。在这个图的左边,给出了描述这两个组成部分的方程。但是,这些方程和右边的图等价吗?显然不等价!如果他们等价,那么让我们交换方程中的变量,这样会产生下面的和电路图等价的方程。但是,这两个电路是不同的。
上面的电路图告诉我们,如果我们完全地操纵Y,它会影响Z的值 ,而下面的电路图告诉我们,操纵Y会影响X,而不会有对Z有任何影响。此外,在我们的方程上进行一些额外的代数运算,我们可以得到两个新的方程,如下所示,这些方程没有任何对应的结构。他们只表示了三个变量的两个限制条件,而没有告诉我们他们如何相互影响的。让我们更仔细地检查我们的心理过程,是如何决定在完全操纵Y后的结果,比如将Y设置为0。
幻灯片45 :看做手术机理的干预措施
显然,当我们将Y设置为0 , X和Y之间的关系不再由乘法器决定 – 现在有一种新的机制来控制Y ,在其中X 没有发言权。在方程的表达中,这相当于由一个新的方程Y = 0取代原方程式 Y = 2X ,解这组新的方程,可以得出Z = 1 。如果我们对代表下面一个模型的方程组执行这种手术,我们当然会得到一个不同的解。第二个方程将需要被替换,结果将是X = 0而Z没有约束。
现在我们看看这种干预措施的模型如何导出了一个因果关系的正式定义: “如果我们可以通过操纵Y来改变Z,那么Y是Z的一个原因,即,在外科手术般地去掉Y的方程后,Z的解将取决于替代Y的新值。我们也看到,在这个过程中这个图是如何地至关重要。这个图告诉我们当我们操纵Y时,哪一个等式应该被删除。当我们将方程变换到等价的代数形式时,这样的信息就完全丢失了,就如屏幕底部所显示的––单从这对方程,是无法预测的设定Y为0的结果,因为我们不知道执行什么样的外科手术执行––因为没有一个“对应于Y”的方程 。
总括而言,干预措施相当于一个遵循图表对方程进行的手术,因果关系意味着预测这样手术的后果。这是一个超越了物理系统的普遍主题。事实上,为干预措施建模的思想是首先由经济学家赫尔曼伍德在1960年提出来的,但他的观点已全部从经济学文献中消失了。历史书籍将这个神秘消失归咎于伍德的个性,但我倾向于相信有更深层的原因:早期经济计量学家是非常仔细的数学家;他们努力保持代数的纯正和形式化,不同意有如作为图表这样的噱头玷污代数。正如我们在屏幕上看到的,没有图表,上面外科手术般的操作没有数学意义,因为它对我们写方程的方式很敏感。在阐述这一新数学运算的特性之前,让我演示它在澄清统计学和经济学概念上是如何的有用。
幻灯片46 :作为外科手术的干预措施 –– 受控的实验
为什么我们选择受控的实验而不是不受控的实验研究?假设我们要研究一些药物治疗对某种疾病患者康复的影响。支配每一个患者的机理和我们前面看到的电路图的结构是相似的:康复是治疗和其他因素的函数,比如社会经济状况、生活方式、饮食、年龄等等。这里仅仅显示了一个这样的因素。在不受控的条件下,治疗选择是由病人决定的,可能取决于病人的社会经济背景。这就产生了一个问题,因为我们不能确定康复率的变化是治疗的结果还是这些背景因素的结果。我们所希望做的是,比较有相同背景的患者,这正是费舍尔的随机对照试验所完成的。如何做呢?
它实际上包括两部分,随机选择和干预措施。干预措施意味着我们改变了个人的自然行为:我们将患者分成两组,所谓的治疗组和控制组,我们说服患者服从实验的规定。我们将指派一些在正常情况下不会寻求治疗的患者在治疗组,而我们给一些会接受治疗的患者一些安慰剂。在我们的新词汇表里,这意味着外科手术操作 –– 我们是切断一个功能连结,并用另一个来取代它。费舍尔伟大的洞察力是,将新连结接到一个随机硬币翻转上,保证将我们想切断的连结真的被切断了。原因是,一个随机的硬币是假定不受任何我们可以测量的宏观层面的因素影响,当然包括病人的社会经济背景。此图片提供了一个有意义的和正式的被普遍接受的随机临床试验过程的基本原理。在相比之下,我们的下一例子用外科手术的想法来指出被广泛接受的过程的不足之处。
幻灯片47 :例子2 ––政策分析
这个例子涉及到政府官员试图评估一些政策的经济后果,例如税收。一个深思熟虑的提高或降低税收的决策,是对经济模型的一个手术,因为它修改了在模型建立时普遍存在的条件。经济模型是建立在一定时期数据的基础上的,而且在此期间,针对一些经济条件或政治压力,税收被降低或提高。然而,当我们评价一个政策时,我们希望在同样的经济条件下比较不同的的替代政策,即我们要割断这种在过去将政策和那些条件连结起来的联系。在这种结构下,当然是不可能将我们的政策和一枚硬币连结起来运行一个受控实验;一来,我们没有足够的时间这样做,二来,我们可能在实验结束前会破坏了经济。不过,我们应该进行的分析是由没有更改的模型得到的数据推断被更改的模型的行为。我说“应该进行”是因为在任何经济学的教科书你不会找到这样的分析。正如我刚才所说,赫尔曼伍德的手术想法已经被1970年代的经济学文献淹没了。所有我可以找到的政策分析讨论,都是建立在“假设一个更改过的模型是始终存在的”的基础之上的。
在模型评估时,税收是在政府控制下的。这个事实,被假定为有足够的理由相信在整个过程中,将税收看做一个外生变量。在事实上,税收在建模阶段是一个内生变量,而只有评估时才当做外生变量来评价。当然,我不是声称,恢复了手术模式将可以使政府在一夜之间平衡预算,但它肯定是值得尝试的。
让我们现在看看手术解释如何解决罗素之谜:关于因果关系的方向性和物理方程的对称性之间的冲突。物理方程真的是对称的,但是,当我们比较句子“A导致了B”与“B导致了A”,我们现在谈的不是单一的一组方程。相反,我们是比较两个世界模型,由两个方程组所代表的两个世界模型;在一个模型中,A的方程被手术般地去掉了,在另一个模型中,B的方程被手术般地去掉了。罗素可能会在这一点上阻止我们,并问: “将所有的物理方程放在一起,其实这里只有一个世界模型,你如何可以说两个世界模型呢?” 答案是:说的没错。如果你想把整个宇宙包括在模型中,因果关系消失了,因为干预措施消失了 –– 操作者和被操作者之间失去了他们的区别。
然而,科学家很少将整个宇宙作为一个调查的对象进行考虑。在大多数情况下,科学家从整个宇宙中切一块下来,并宣称这块就是系统的内部,即调查的重点。宇宙的其他部分将被看做是系统的外部或者背景,并由我们称为边界条件的来总结。这种系统内部和外部的选择产生了我们看待事物的不对称性。正是这种不对称性,允许我们谈论“外部干预” ,还有因果关系和因果关系的方向性
幻灯片48 :手眼系统(笛卡尔,人权)
用笛卡尔的经典绘画可以对这一点进行很好的说明。作为一个整体,这个手眼系统不知道什么因果关系。这只是一个乱七八糟的等离子体粒子和光子,尝试着服从薛定谔的方程。这是对称的。
幻灯片49 :手眼部分
不过,从上面切割一大块出来,比如物体部分,我们可以说手的移动导致光线改变了角度。
幻灯片50 :手眼部分
换一种切法,重点放在脑部,(?lo),现在是光线导致了手的移动。这是和前面完全相反的情况。教训是,我们切割世界的方式决定了我们联系原因和结果的方向性。在每一个科学研究中,这种切割都是默认的。在人工智能里,它被J.麦卡锡称为界限。在经济学上,界限包括决定哪些变量是内生的和外生,即模型内部或外部。
幻灯片51 :从物理到因果关系
让我们总结方程模型和因果模型的本质区别。两者都使用了一套对称的方程来描述正常状态。不过,因果模式包含三个额外的组成部分: 系统内部和外部的区别;一个假设(每个方程对应一个独立的机制,因此,必须由一个单独的数学语句来表达);干预措施被解释为对这些机制的外科手术。这使我们更接近实现将因果关系作为物理友好的一部分的梦想。但还缺少一个成分:代数。我们前面讨论过,对伽利略时代的科学家和工程师来说,代数计算的便利性是多么的重要。我们能期望这样的代数便利性也为因果关系服务吗?让我换句话说:科学活动,正如我们所知道的,包括两个基本组成部分:
幻灯片52 :天文台(赫维留, 1673 )
观察
幻灯片53 :打造磁铁(GILBERT, DE MAGNET, 1600 )
和干预措施
幻灯片54 :实验室
结合这两个就是我们所说的一个实验室。在这个地方,我们控制一些条件然后观察其他的。现在发生的是,标准代数在观测中起到了非常好的作用,但是,迄今为止,并没有对干预措施起到好处。事实就是这样,方程代数,布尔代数和概率演算,都在为观测服务的,而没有为干预措施服务。
幻灯片55 :操作代数的需求(续)
采取举例来说,看看概率论。如果我们想知道给定我们看到草湿时下过雨的几率,我们可以把我们的问题表达成一个正式的句子:P(rain|wet)读作:给定草是湿的时下雨的概率。竖线表示这样的短语: “给定我们所看到的” 。我们不仅可以用正式的语句表示这个问题,而且我们也可以使用概率论的机制,并将这个句子变化成其他的表达形式。在我们的例子中,如果我们发现更方便或翔实的话,我们可以将左边的句子可以转化为右边的句子。
但假设我们问一个不同的问题:“如果我们把草弄湿,下雨的几率是多少?” 我们甚至不能用概率的句法来表达我们的问题,因为竖线是已经表示了这样的意思: “给定我们所看到的” 。我们可以发明一种新的符号“DO”,每次我们在竖线后面看见一个“DO”,我们读作“给定我们做”,但这对我们计算我们问题的答案没有帮助,因为概率的规则不适用于这种新读法。直觉上我们知道的答案应该是P(rain),因为把草弄湿并不改变下雨的几率。不过,这直观的回答,和其他类似的,可以按规则推导吗?当直觉失败时,这样可以安慰我们的想法吗?
答案是肯定的,它需要一个新的代数:第一,我们指定一个符号给新的操作符“给定我做的”;第二,我们找到了操作包含这种新符号的句子的规则。我们通过一个类似于数学家发现标准代数规则的过程那样做到了这一点。
幻灯片56 :需要:DOING的代数
想象你是一位十六世纪的学家,你现在是一个加法代数的专家;你觉得有迫切的需要来引进新的操作符:乘法,因为你已经厌倦了成天将一个数连加。你做的第一件事是指定一个操作符:相乘。接着你指定了操作符的意义,从其中可以推导出变化的规则。例如:乘法的交换律可以推导出来,结合律,等等,.... 我们现在在高中都了解这一切。以完全相同的方式,我们可以推导出支配新符号do(X)的规则。我们有一个针对“seeing”的代数,即概率论。我们有一个新的操作符,通过外科手术般的过程,给了我们一个崭新的红色装备和一个非常明确的意义。对于推导的大门敞开了,结果将在下一个幻灯片中给出。
幻灯片57 :因果关系的演算
请不要惊慌,我不期望您现在就读懂这些方程,但我相信你仍然可以对新的运算有一定的感觉。它包含了三个规则,允许我们将涉及行动和观察的表达式变换为同类的表达式。第一个规则让我们忽略无关的观察,第三个规则让我们忽略无关的行动,第二个规则让我们交换具有同一事实的观察和行动。右边的绿色符号是什么?这些是图表给我们的、在任何时候当转换是合适时的绿灯。我们将在下面的例子中看到关于行动的规则。
只要在脚注简单介绍一下FACULTY RESEARCH LECTURE是怎么回事就可以了。
对于这个问题,应该有比较系统的论述。至少在决策理论中,有如何综合专家意见的研究。大概的结论是,如果问题是可以重复的,那么采用多数人的意见在大多情况下是正确的。至于如何综合多数人的意见,可以有不同的方法。如果只是某一个具体问题,应该具体分析。
由于最近比较忙,一时没时间找资料。简单说一下自己的想法。
首先,我们有一个假设:任何问题都有一个正确的答案或解释。如果可以有多个答案,那么每一专家有可能都是正确的。
第二,我们要如何评论一个答案?一个评价的标准对结果影响很大。
第三,我们有针对的是某一个具体问题还是一个普遍的可重复的问题。两类不同的问题,要求的条件和标准完全不一样。
第四,专家的可靠性有多高?
如果某一个专家的可靠性非常高,将其他人的意见和他的综合,很可能是综合后的结论比这个专家的意见可靠性低。
第五,意见综合的方法。很多讨论都集中在这里。一人一票制、加权平均、概率计算等。
举几个例子,来说明(在当时)大多数人的意见不一定正确,比如当年的地心说,化学里的燃素说,物理的以太说。在当时,这些学说都是占主导地位的,但现在看来都不正确。虽然这些例子比较少,但是确实是存在的。
所以,具体问题要具体分析。
大部分情况下大多数专家的意见和大多数群众的意见是一致的。当然也有例外,比如三峡工程。
专家意见自然是拥护三峡工程的多,可是民间尤其是坚信自己能独立思考的知识分子中支持黄万里的似乎占大多数。
个人有个猜测:反对工程的专家得不到太多的官方兴趣,只好把精力转移到田间地头,杂志网络;而拥护工程的专家大都是主流,位高权重,是没有兴趣来进行科普的。这么一来广大知识分子接触到的信息大多是种种弊端,多灌输几次就觉得自己掌握的是真理了。
The following is the Chinese translation of Professor Judea Pearl’s lecture transcript at the eighty-first lecture in the UCLA Faculty Research Lectureship Program. The original version is at the web page http://singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm. This translated version may differ from the original version. If you find any confusion or errors in this translated version, please refer to the original version for more information, and please leave your message in this forum. I'd like to thank Professor Judea Pearl for granting permission to translate and to publish his lecture on the web.
下面是朱迪亚.明珠教授 教授在1996年获得加州大学洛杉矶分校研究讲座演讲的中文译稿。原稿的网址是http://singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm。 这个中文译稿有可能和原稿不一致。如果你在中文译稿中发现有语言不妥或错误的地方,请参照原文以获取更多的信息,并请在这个论坛上留言。我非常感谢朱迪亚•明珠教授同意翻译他的演讲稿,并发表在网络上。
朱迪亚.明珠
被授予第八十一届研究讲座**
原因与结果的艺术和科学*
于1996年10月29日星期四的演讲稿,作为加州大学洛杉矶分校第八十一届研究讲座系列的一部分
*本演讲现作为(我的专著)《因果关系:模型,推理与推论》的后记。本书即将由剑桥大学出版社于2000年1月出版(已经出版 – 译者注)。
** (此乃该校最高的学术荣誉 – 译者注)
可以点击略图来查看全尺寸的幻灯片
另外,您也可以打开一个新的网页浏览器,同时查看文本和幻灯片
提醒 – 这个演讲的页面包含很多图片,可能要花一段时间才能下载。
如果需要硬拷贝的话,请联络[email protected]
阅读这个翻译,请配合原幻灯片看,因为有一部分内容在幻灯片里。
The lecture "The Art and Science of Cause and Effect" was delivered by Judea Pearl in 1996, and also appears as Epilogue in his book "Causality" by Cambridge University Press.
原文链接
http://singapore.cs.ucla.edu/LECTURE/lecture_sec3.htm
幻灯片58 :大纲
这些内容把我们带到了演讲的第三部分,在这里我将展示到目前为止的想法如何被用来解决实际中很重要的新问题。
幻灯片59 :吸烟导致癌症吗?
我们来考虑一下吸烟对肺癌影响的百年争论。在1964年,军医局局长发表了一份报告,把吸烟和死亡、癌症、尤其是肺癌联系了起来。该报告是基于非实验性研究,发现了吸烟与肺癌有很强的相关性,并声称发现的相关性是因果关系,也就是,如果我们禁止吸烟,癌症的发病率将和我们在非吸烟人群发现的癌症发病率大致一样。这些研究受到了来自烟草业的严厉攻击,这些攻击得到一些非常杰出的统计人员的支持,其中包括罗纳德费舍尔爵士。他们的观点是,观察到的相关性也可以由一个在吸烟和肺癌没有因果联系的模型来解释。作为替代模型,可能存在一个没有观察到的基因,这个基因同时导致了癌症和产生了对尼古丁的渴求。形式上来讲,这种说法可以用我们的符号表达为:P(cancer | do(smoke)) = P(cancer)。这个表达式说明让一个人群吸烟或戒烟不会影响癌症的发病率。可控的对照实验可以决定两个模型(的正确与否),但这些实验是不可能做的,而且现在这样做还是违法的。(译者注:因为我们不可以进行一个随机实验,强迫一些人去吸烟,以检验吸烟的后果。)
这是所有的历史情况。现在,我们进入一个假设的时代,双方的代表决定会面并消除他们之间的分歧。烟草业承认在吸烟和癌症之间可能有一些微弱的因果联系,而健康组织也让步,认为基因因素与吸烟和癌症也有微弱的联系。因此,他们得出这个复合模型,并且把问题归结为从数据中评估各个联系的强度。他们把这个问题提交给一个统计学家,答案马上就回来了:不可能的。意思是:没有办法从数据中估计出这些联系的强度,因为任何数据都完全符合这两个极端的模型中其中一个。所以他们放弃(数学方法),并决定像以前一样继续进行政治斗争。
在这个分歧面前,有个建议被提出了:如果我们测量一些辅助变量,也许我们可以解决我们的分歧,例如,因为因果联系模型是建立在这样的理解基础上的:吸烟是通过在肺部的焦油沉积量来影响肺癌的。或许我们可以测量采样人群的焦油沉积量,这可能会为量化这些联系提供必要的信息?双方一致认为,这是一项合理的建议,所以他们提交一份新问题给统计学家:假设在中间变量(焦油沉积量)可测的情况下,我们能得出吸烟对癌症的影响吗? ? ?该统计学家回复了一个好消息:这是可计算的,而且,答案是由严格的数学形式给出。 如何做呢?
幻灯片60 :因果关系演算的典型推导
该统计学家收到了这个问题,并把它作为一个高中代数问题:我们需要在假设的行动下从非实验数据中计算P(cancer) ,即从没有行动的表达式中来计算。或者说,我们需要从初始表达式中消掉符号“DO”。这个消除就像普通的解代数方程一样进行 –– 在每一个步骤,应用一个由部分图许可的新规则,直到找到一个只有白色符号的公式。这意味着表达式是可以从非实验数据计算的。你大概怀疑这个推导是否解决吸烟癌症的争论。答案是否定的。即使我们可能得到焦油沉积量的数据,上面的模型太简单,因为它是基于某些双方可能不会同意的假设。举例来说,在吸烟与肺癌之间没有直接的联系,由焦油沉积量作为中介。该模型将需要加以完善,然后,我们最终可能得到一个含20或更多的变量的图。当有人告诉我们:“你们没有考虑到这样或那样的因素”时,没必要恐慌。与此相反,这种图欢迎这样的新思路、新观点,因为这个图是那么容易地将新的因素与测量添加到模型中。现在已存在简单的测试,来允许调查者只看图表就决定我们是否能计算一个变量对另一个变量的影响。我们下一个例子将说明一个长期存在的问题是如何被纯粹图形化的手段解决的 –– 即被新代数证明的。问题是所谓的调整问题,或者“相关变量选择问题”,是代表了辛普森悖论实际的一面。
幻灯片61 :辛普森悖论
辛普森悖论首先在1899年由皮尔逊注意到,它涉及一个令人不安的现象:在分析中加入一个额外的变量,两个变量之间的统计关系可能会变得完全相反。例如,您可能在进行一项研究,发现吸烟的学生会得高分,不过,如果你考虑了年龄,结果正好相反,在每一个年龄组,即吸烟的学生会得低分。如果您进一步考虑父母的收入,您会发现在每一个(年龄–收入)组,吸烟可以预测高分,如此等等。同样令人不安的是,事实上,没有人能告诉我们哪些因素应该包括在分析中。现在这些因素都可以用简单的图形化手段来确定。
辛普森悖论的经典案例发生在1975年,当时对加州大学伯克利分校在研究生录取的性别歧视方面进行了调查。在这项研究中,整体数据显示,男性申请人的录取率较高。但是,按各个系考虑时,数据显示女性申请人的录取率稍微偏高。解释很简单:女性申请人往往倾向于申请竞争更激烈的院系,在这些院系里,无论男性和女性的录取率都很低。
幻灯片62 :渔网
为了说明这一点,设想渔船有两个不同的渔网,一个的网眼很大和一个网眼很小。一群鱼向渔船游来,并想游过去。雌性的鱼试图穿过网眼较小的渔网,而雄性的鱼试图走容易的路线(来穿过网眼较大的渔网)。雄性可以通过,而只有雌性被捉住了。通过最后的判断,对女性的偏好是显而易见的。但是,如果分别分析的话,每一个渔网都肯定更容易捉到雄性的鱼。
另一个例子涉及到一个所谓的“反向回归” 争论,这个争论曾占满了20世纪70年代的社会科学文献。在工资歧视案件中,我们应比较资历相同的男性和女性的工资,或者相反的,我们应比较拿同样工资的男性和女性的资历?值得注意的是,两个选择导致了相反的结论。
研究显示,同样资历的男性比女性挣更多的钱,同时,挣同样钱的男性比女性资历更好。这个故事的教益在于,当我们进行比较时,所有的结论都对我们选择为常量的变量极为敏感,这就是为什么在观察研究分析中,变量调整问题是如此的重要。
幻灯片63 :统计变量调整问题
考虑这样一个观测研究,我们想找到X对Y的影响,例如,治疗措施对治疗效果的影响。我们可以考虑很多和问题相关的因素:一些受治疗的影响,有些影响治疗措施,有些则既影响治疗措施也影响治疗效果。这些因素中的一部分可能无法测量,如遗传性状或生活方式,而另外一些是可以测量的,如性别,年龄和工资水平。我们的问题是要选择这些因素的一个子集,用于测量和变量调整,即,如果在同样的测量值和平均值下我们比较受实验者,我们可以得到正确的结果。
幻灯片64 :变量调整问题的图形化解决方案
让我们共同遵循下面所需的步骤,来测试两个候选的测量Z1和Z2是否是足够的。步骤相当简单,即使在大图上,也可以手动完成。不过,为了让您觉得这样做的程式化,我会很快地讲解他们。我们可以开始了。
幻灯片65––69 :变量调整问题的图形解决方案(续)
在这些操作的最后,我们得到了我们问题的答案:“如果X是和Y分离的,那么Z1和Z2是合适的测量变量(来计算X对Y的影响)。”
结束语
现在我想简单地总结一下这个演讲的中心内容。事实上对原因和结果的测试是很难的。发现产生结果的具体原因更是困难。但因果关系并不是 神秘的或形而上的。它是可以通过简单的过程来理解的,它是可以用友好的数学语言来表达,它是可以被计算机分析的。
幻灯片70 :珠算
今天我所呈现给您的是一种袖珍计算器,算盘,为了帮助我们在数学精度下研究某些因果关系问题。这虽不能解决所有的因果关系问题,但是符号和数学的力量还是不应被低估的。
幻灯片71 : 新的和旧的算术之间的竞争
因为缺乏一个推广新想法和让科学家们交流研究结果的数学语言,许多科学发现已被推迟了数百年。我深信,在这个世纪,因为缺乏一个可以处理因果关系的数学语言,很多的发现也已被推迟。举例来说,我相信如果卡尔皮尔逊允许在他的数学中使用因果关系图的话,他可以在1901年想到随机实验的想法。
但真正具有挑战性的问题还在后面:我们仍然对贫穷、对癌症、对INTOLERANCE没有因果关系的理解。只有数据的积累和伟大思想的洞察力,最终将导致这种认识。数据随处可见,洞察力在你们的头脑中,现在你们有了一个算盘(可以去解决你们想解决的问题)。我希望这些因素的结合可以扩大每一部分的功能。谢谢大家!
感谢:
在翻译过程中使用了Google Translate (http://translate.google.com/)和爱词霸(http://www.iciba.bom)。在这里向提供这些工具的公司表示感谢!
网友“直抒胸臆”给予了很大的鼓励,通读了全文,并给予了修改和建议。
基于不确定性因果推理的工具有两个:
基于概率模型(probability)的贝叶斯信念网(Bayesian Belief Networks)和基于可能性模型(possibility)的模糊认知图(Fuzzy Cognitive Maps)
找了一些中文的书单,有时间的话可以找来看看。如果有人有更多的话,欢迎补充。
Author 张志林.
Title 因果观念与休谟问题 / 张志林著.
Yin guo guan nian yu xiu mo wen ti.
Imprint 长沙 : 湖南敎育出版社, 1998.
休谟 = David Hume
周晓亮, 1949-
[长沙] : 湖南敎育出版社, 1999.
休谟及其人性哲学
周晓亮.
北京 : 社会科学文献出版社, 1996.
通往人学途中 : 休谟人性论硏究 = Towards humanics : a research on Hume's theory of human nature / 黄振定著.
[长沙] : 湖南敎育出版社, 1997.
人性论 / [英] 休谟; 关文运译
知识之谜 : 休谟以来的西方知识论及评析
尹星凡.
[南昌] : 江西人民出版社, 1998.
据说一个飞机上有炸弹的概率为十万分之一,但某人并不认为这个概率很小。概率小毕竟意味者可能,每天航班这么多,十万分之一确实不是一个小数目。
而一个飞机上有两个炸弹的概率为一百亿分之一。所以有人带一个炸弹上飞机,说这样可以减少飞机上有炸弹的概率。
Author 张志林.
Title 因果观念与休谟问题 / 张志林著.
Yin guo guan nian yu xiu mo wen ti.
Imprint 长沙 : 湖南敎育出版社, 1998.
1.因果关系究竟是怎样的?
2.因果观念与概率观点是否势不两立?
3.因果观念与科学推理有什么关系?
4.因果律、自然律与科学解释之间的关系是怎样的?
5.因果观念在现代科学中有什么作用?
引用洛西(J.Losee)的一段论述:
科学哲学家在科学哲学中寻求下列这些问题的答案:
1.什么特征把科学探索与其他类型的研究区分开来?
2.科学家在研究自然的过程中应遵循哪些程序?
3.一种科学解释必须满足什么条件才是正确的?
4.科学的定律和原理的认识地位是什么?
提出这些问题就是假定离开科学本身的实践,站在更高一个层次上看问题。在从事科学与思考应该如何从事科学之间是有区别的。关于科学方法的分析是一门二级学科,其主题是各门科学的程序和结构:
层次 学科 主题
2 科学哲学 程序分析和科学解释的逻辑
1 科学 事实的解释
0 事实
炸弹上飞机这个事件是随机分布的。所以,对你而言,飞机上有另一个炸弹的概率还是十万分之一。而对其他“无知”的乘客,同时在飞机上碰到你的炸弹和另一颗炸弹的概率才是一百亿分之一。