主题:【原创】因果关系(科学中的因果关系) -- earthcolor

共:💬42 🌺61 新:
全看分页树展 · 主题 跟帖
家园 【因果关系-原版翻译】原因与结果的艺术和科学(三)

The following is the Chinese translation of Professor Judea Pearl’s lecture transcript at the eighty-first lecture in the UCLA Faculty Research Lectureship Program. The original version is at the web page http://singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm. This translated version may differ from the original version. If you find any confusion or errors in this translated version, please refer to the original version for more information, and please leave your message in this forum. I'd like to thank Professor Judea Pearl for granting permission to translate and to publish his lecture on the web.

下面是朱迪亚.明珠教授 教授在1996年获得加州大学洛杉矶分校研究讲座演讲的中文译稿。原稿的网址是http://singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm。 这个中文译稿有可能和原稿不一致。如果你在中文译稿中发现有语言不妥或错误的地方,请参照原文以获取更多的信息,并请在这个论坛上留言。我非常感谢朱迪亚•明珠教授同意翻译他的演讲稿,并发表在网络上。

朱迪亚.明珠

被授予第八十一届研究讲座**

原因与结果的艺术和科学*

于1996年10月29日星期四的演讲稿,作为加州大学洛杉矶分校第八十一届研究讲座系列的一部分

*本演讲现作为(我的专著)《因果关系:模型,推理与推论》的后记。本书即将由剑桥大学出版社于2000年1月出版(已经出版 – 译者注)。

** (此乃该校最高的学术荣誉 – 译者注)

可以点击略图来查看全尺寸的幻灯片

另外,您也可以打开一个新的网页浏览器,同时查看文本和幻灯片

提醒 – 这个演讲的页面包含很多图片,可能要花一段时间才能下载。

如果需要硬拷贝的话,请联络[email protected]

阅读这个翻译,请配合原幻灯片看,因为有一部分内容在幻灯片里。

The lecture "The Art and Science of Cause and Effect" was delivered by Judea Pearl in 1996, and also appears as Epilogue in his book "Causality" by Cambridge University Press.

原文链接

http://singapore.cs.ucla.edu/LECTURE/lecture_sec3.htm

幻灯片58 :大纲

这些内容把我们带到了演讲的第三部分,在这里我将展示到目前为止的想法如何被用来解决实际中很重要的新问题。

幻灯片59 :吸烟导致癌症吗?

我们来考虑一下吸烟对肺癌影响的百年争论。在1964年,军医局局长发表了一份报告,把吸烟和死亡、癌症、尤其是肺癌联系了起来。该报告是基于非实验性研究,发现了吸烟与肺癌有很强的相关性,并声称发现的相关性是因果关系,也就是,如果我们禁止吸烟,癌症的发病率将和我们在非吸烟人群发现的癌症发病率大致一样。这些研究受到了来自烟草业的严厉攻击,这些攻击得到一些非常杰出的统计人员的支持,其中包括罗纳德费舍尔爵士。他们的观点是,观察到的相关性也可以由一个在吸烟和肺癌没有因果联系的模型来解释。作为替代模型,可能存在一个没有观察到的基因,这个基因同时导致了癌症和产生了对尼古丁的渴求。形式上来讲,这种说法可以用我们的符号表达为:P(cancer | do(smoke)) = P(cancer)。这个表达式说明让一个人群吸烟或戒烟不会影响癌症的发病率。可控的对照实验可以决定两个模型(的正确与否),但这些实验是不可能做的,而且现在这样做还是违法的。(译者注:因为我们不可以进行一个随机实验,强迫一些人去吸烟,以检验吸烟的后果。)

这是所有的历史情况。现在,我们进入一个假设的时代,双方的代表决定会面并消除他们之间的分歧。烟草业承认在吸烟和癌症之间可能有一些微弱的因果联系,而健康组织也让步,认为基因因素与吸烟和癌症也有微弱的联系。因此,他们得出这个复合模型,并且把问题归结为从数据中评估各个联系的强度。他们把这个问题提交给一个统计学家,答案马上就回来了:不可能的。意思是:没有办法从数据中估计出这些联系的强度,因为任何数据都完全符合这两个极端的模型中其中一个。所以他们放弃(数学方法),并决定像以前一样继续进行政治斗争。

在这个分歧面前,有个建议被提出了:如果我们测量一些辅助变量,也许我们可以解决我们的分歧,例如,因为因果联系模型是建立在这样的理解基础上的:吸烟是通过在肺部的焦油沉积量来影响肺癌的。或许我们可以测量采样人群的焦油沉积量,这可能会为量化这些联系提供必要的信息?双方一致认为,这是一项合理的建议,所以他们提交一份新问题给统计学家:假设在中间变量(焦油沉积量)可测的情况下,我们能得出吸烟对癌症的影响吗? ? ?该统计学家回复了一个好消息:这是可计算的,而且,答案是由严格的数学形式给出。 如何做呢?

幻灯片60 :因果关系演算的典型推导

该统计学家收到了这个问题,并把它作为一个高中代数问题:我们需要在假设的行动下从非实验数据中计算P(cancer) ,即从没有行动的表达式中来计算。或者说,我们需要从初始表达式中消掉符号“DO”。这个消除就像普通的解代数方程一样进行 –– 在每一个步骤,应用一个由部分图许可的新规则,直到找到一个只有白色符号的公式。这意味着表达式是可以从非实验数据计算的。你大概怀疑这个推导是否解决吸烟癌症的争论。答案是否定的。即使我们可能得到焦油沉积量的数据,上面的模型太简单,因为它是基于某些双方可能不会同意的假设。举例来说,在吸烟与肺癌之间没有直接的联系,由焦油沉积量作为中介。该模型将需要加以完善,然后,我们最终可能得到一个含20或更多的变量的图。当有人告诉我们:“你们没有考虑到这样或那样的因素”时,没必要恐慌。与此相反,这种图欢迎这样的新思路、新观点,因为这个图是那么容易地将新的因素与测量添加到模型中。现在已存在简单的测试,来允许调查者只看图表就决定我们是否能计算一个变量对另一个变量的影响。我们下一个例子将说明一个长期存在的问题是如何被纯粹图形化的手段解决的 –– 即被新代数证明的。问题是所谓的调整问题,或者“相关变量选择问题”,是代表了辛普森悖论实际的一面。

幻灯片61 :辛普森悖论

辛普森悖论首先在1899年由皮尔逊注意到,它涉及一个令人不安的现象:在分析中加入一个额外的变量,两个变量之间的统计关系可能会变得完全相反。例如,您可能在进行一项研究,发现吸烟的学生会得高分,不过,如果你考虑了年龄,结果正好相反,在每一个年龄组,即吸烟的学生会得低分。如果您进一步考虑父母的收入,您会发现在每一个(年龄–收入)组,吸烟可以预测高分,如此等等。同样令人不安的是,事实上,没有人能告诉我们哪些因素应该包括在分析中。现在这些因素都可以用简单的图形化手段来确定。

辛普森悖论的经典案例发生在1975年,当时对加州大学伯克利分校在研究生录取的性别歧视方面进行了调查。在这项研究中,整体数据显示,男性申请人的录取率较高。但是,按各个系考虑时,数据显示女性申请人的录取率稍微偏高。解释很简单:女性申请人往往倾向于申请竞争更激烈的院系,在这些院系里,无论男性和女性的录取率都很低。

幻灯片62 :渔网

为了说明这一点,设想渔船有两个不同的渔网,一个的网眼很大和一个网眼很小。一群鱼向渔船游来,并想游过去。雌性的鱼试图穿过网眼较小的渔网,而雄性的鱼试图走容易的路线(来穿过网眼较大的渔网)。雄性可以通过,而只有雌性被捉住了。通过最后的判断,对女性的偏好是显而易见的。但是,如果分别分析的话,每一个渔网都肯定更容易捉到雄性的鱼。

另一个例子涉及到一个所谓的“反向回归” 争论,这个争论曾占满了20世纪70年代的社会科学文献。在工资歧视案件中,我们应比较资历相同的男性和女性的工资,或者相反的,我们应比较拿同样工资的男性和女性的资历?值得注意的是,两个选择导致了相反的结论。

研究显示,同样资历的男性比女性挣更多的钱,同时,挣同样钱的男性比女性资历更好。这个故事的教益在于,当我们进行比较时,所有的结论都对我们选择为常量的变量极为敏感,这就是为什么在观察研究分析中,变量调整问题是如此的重要。

幻灯片63 :统计变量调整问题

考虑这样一个观测研究,我们想找到X对Y的影响,例如,治疗措施对治疗效果的影响。我们可以考虑很多和问题相关的因素:一些受治疗的影响,有些影响治疗措施,有些则既影响治疗措施也影响治疗效果。这些因素中的一部分可能无法测量,如遗传性状或生活方式,而另外一些是可以测量的,如性别,年龄和工资水平。我们的问题是要选择这些因素的一个子集,用于测量和变量调整,即,如果在同样的测量值和平均值下我们比较受实验者,我们可以得到正确的结果。

幻灯片64 :变量调整问题的图形化解决方案

让我们共同遵循下面所需的步骤,来测试两个候选的测量Z1和Z2是否是足够的。步骤相当简单,即使在大图上,也可以手动完成。不过,为了让您觉得这样做的程式化,我会很快地讲解他们。我们可以开始了。

幻灯片65––69 :变量调整问题的图形解决方案(续)

在这些操作的最后,我们得到了我们问题的答案:“如果X是和Y分离的,那么Z1和Z2是合适的测量变量(来计算X对Y的影响)。”

结束语

现在我想简单地总结一下这个演讲的中心内容。事实上对原因和结果的测试是很难的。发现产生结果的具体原因更是困难。但因果关系并不是 神秘的或形而上的。它是可以通过简单的过程来理解的,它是可以用友好的数学语言来表达,它是可以被计算机分析的。

幻灯片70 :珠算

今天我所呈现给您的是一种袖珍计算器,算盘,为了帮助我们在数学精度下研究某些因果关系问题。这虽不能解决所有的因果关系问题,但是符号和数学的力量还是不应被低估的。

幻灯片71 : 新的和旧的算术之间的竞争

因为缺乏一个推广新想法和让科学家们交流研究结果的数学语言,许多科学发现已被推迟了数百年。我深信,在这个世纪,因为缺乏一个可以处理因果关系的数学语言,很多的发现也已被推迟。举例来说,我相信如果卡尔皮尔逊允许在他的数学中使用因果关系图的话,他可以在1901年想到随机实验的想法。

但真正具有挑战性的问题还在后面:我们仍然对贫穷、对癌症、对INTOLERANCE没有因果关系的理解。只有数据的积累和伟大思想的洞察力,最终将导致这种认识。数据随处可见,洞察力在你们的头脑中,现在你们有了一个算盘(可以去解决你们想解决的问题)。我希望这些因素的结合可以扩大每一部分的功能。谢谢大家!

感谢:

在翻译过程中使用了Google Translate (http://translate.google.com/)和爱词霸(http://www.iciba.bom)。在这里向提供这些工具的公司表示感谢!

网友“直抒胸臆”给予了很大的鼓励,通读了全文,并给予了修改和建议。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河