五千年(敝帚自珍)

主题:【原创】数字左右社会科学 -- 同人于野

共:💬59 🌺171
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 【原创】数字左右社会科学

本文继续讨论社会科学的全面数字化,研究一些更有意思的话题。

  

  前文贴出以后,我注意到有相当的人认为统计方法只是社会科学研究的一种补充手段。也就是说,你可能先有了对事情因果的一个估计,然后用统计方法去证明你的理论。而今天社会科学的发展恰恰正在证明,这种认识是错误的。不是有了理论去找数字,而是数字提供理论。

  

  一个最简单的例子是预测红酒的质量。买新产的红酒堪称是一种风险投资。

  

  一瓶红酒日久以后能不能好喝,能不能卖上好价钱,在它刚刚被酿造出来的时候谁也不知道。新产的红酒,跟这瓶酒十年以后会是什么味道,有什么关系谁也说不清楚,最资深的酿酒专家也不能给出恰当的预测。然而一个叫 Orley Ashenfelter 老兄,其本人根本不是酿酒专家,发明了一个通过葡萄生长环境的降水量和温度预测未来红酒价格的公式:

  

   红酒质量 = 12.145 + 0.0017×冬季降水量 + 0.0614×葡萄生长期平均温度 - 0.00386×葡萄收获期降水量

  

  学物理的人会马上注意到这个公式连量纲都不对。红酒专家会愤怒的发现公式里面居然不包括酒的酿造方法,与具体的酿酒厂无关。

  

  Ashenfelter 的做法是对法国两个地区从1952年到1980年的数据进行统计分析,找到真正左右红酒质量的因素。他可能输入了一百个可能左右红酒质量的随机变量,统计分析的结果却是,只有冬季降水量,生长期温度,和收获期降水量这三个因素起到决定性的作用,其他的都可以忽略。

  

  这个公式相当成功。(根据这个公式,1989和1990这两年产的法国红酒质量是最好的,其中1990的更好。)可以想象传统的专家会多么反对这个公式,他甚至不知道怎么酿造红酒,居然就能预测质量?Ashenfelter 饱受攻击,但事实胜于雄辩,此事的结果是 Ashenfelter 于2006年开始办了一本杂志:Journal of Wine Economics.

  

  传统专家总是看不上统计方法,然而事实证明,统计方法总是战胜传统专家。两位 super crunchers,Andrew Martin 和 Kevin Quinn,宣称他们可以根据几个变量来预测最高法院的法官们的投票结果。宾大法律教授传统专家 Ted Ruger 看不过去,双方比赛。一方是统计方法,另一方是83人组成的法律专家团,预测题目是2002年的最高法院表决。比赛背后的深刻内涵是,法律到底是逻辑的,还是只不过是经验的?使用统计方法的"非专家"们通过分析628个历史案例,给每个法官画了 decision tree 流程图!结果统计方法的预测成功率是75%,而专家团只有59.1%。

  

  用统计方法得出的结论往往是非直觉的,往往与人们以往的信念相左,得到的结论常常很难让人接受。

  

  我们都记得《华氏911》这个纪录片里面 9/11当天,布什在Emma E. Booker 小学"愚蠢地"听课的情景吧。其实他当时正在视察一种极其高效但是极有争议的教学方法:"Direct Instruction" (DI)。这是被统计证明有效,却难以被社会接受的另一个例子。

  

  DI 教学要求教师按照固定剧本教课。老师说的每一句话,对学生的每一个指令,都在教学手册上(甚至包括"Good morning class"这句)。其思想是把信息分为容易消化的小块,然后教的时候要确保每个小块信息都被学生吸收。每个学生每分钟会被要求最多 response 十次。做法是节奏要快,而所有学生齐声回答问题。每5到10个水平相近的学生一组,这样如果老师发现某个学生跟不上,就可以单独让他回答。这是最极致的填鸭式教育。显然,这种教和学非常消耗体力。

  

  DI 是1960年代被 Siegfried "Zig" Engelmann 发明的,他大概写了1000本这样的上课剧本。他拒绝了那些什么"以孩子为中心"之类的主流教育思想,因为他的数据统计证据显示,DI是最有效的方法。此方法是1967年美国政府组织的一个研究怎样更好的给穷孩子教育的大规模教育实验的产物。在17种教学方法中,DI 脱颖而出:在阅读,数学,拼写和语言方面都是 DI 孩子分数第一,而且还是遥遥领先。而且在解决复杂问题,比如猜测新单词的意思的能力方面,也是 DI 学生最强。甚至在自尊自信方面,DI 孩子也比"以孩子为中心"教学的孩子表现的好!而最新(1998,2006)的研究结果也证实 DI 的优势。DI 对帮助成绩差的学生,穷人学生,和少数民族学生特别有效。DI 对教师要求很低,普通老师都可以使用 DI 剧本教学生。

  

  你可以想象这种教法是多么的令人难以接受。长期以来我们不是都说要激发学生的创造力么?不都说要创造友好的教学环境么?事实上,教育界的人批评 DI,说它把老师变成机器人。老师们一开始都不喜欢 DI,有的甚至辞职,但是几个月以后的教学成果会打动他们。DI方法至今也没有真正得到广泛的支持,仍然饱受争议。

  

  让数字自己说话,才是真正的客观研究。以XX思想,XX主义去套的社会研究,不是真正的科学。为什么传统专家比不上统计方法?这是因为人类专家被认知失误和偏见所困扰。而不是因为人类专家不善于做算术:)

  

  - 人类倾向于过分关注不寻常的事件。比如《Freakonomics》这本书指出,大多数人认为家里有枪很危险,然而实际上是家里的游泳池比手枪对孩子危险100倍。

  

  - 我们还总是执着于错误的信念。当新的证据出现时,我们总是只乐于接受那些符合以前的信念的证据。

  

  当然传统专家的智慧不能完全被排除掉,这些智慧有助于我们去设计统计模型,比如说给哪些随机变量。但是二者的地位需要明确:传统智慧为模型服务,而不是模型为传统智慧服务。

  

  统计方法早就有了,但是直到今天才开始全面地从一个辅助工具反客为主,这主要归功于今天的海量数据和计算能力。那么现在既然拥有了这么强大的武器,我们的社会科学是否有什么特别重要的进展和发现呢?我自己的感觉是,此时此刻是社会科学全面发展的黄金时期。行为经济学,认知科学,实验心理学,这些学科的进步是神速的。可以说人从来没有像现在这样了解人。

  

  在所有这些使用统计方法得出的研究成果中,我最感兴趣的是"天才是怎么炼成的"这个研究。过去几年内,因为好几个团队是用统计方法的艰苦研究,这一领域获得了非常显著的进展。我最近正在研读几本书,之后可能会写篇文章专门讨论,也就是天才训练指南的升级版。

  

元宝推荐:老马丁,

本帖一共被 2 帖 引用 (帖内工具实现)
家园 又见同人于野兄妙贴,俺坐沙发仔细欣赏认真学习天天向上
家园 现在咱不能推荐文化版面的帖子了

顶一下吧。

家园 个人觉得这帖子更像个科学版的帖子,花。

我觉得以我国的高中,在激烈的竞争中,已经发展成型的教育方法。和DI法是可以互相证明的

家园 好文,实在是好文

社会科学数字化是一个倾向,但最好不要搞成经济学那样,动不动就给你搞个模型。

最近我在试着用NVivo这个软件,非常有意思,这也是有效地把社会科学数字化的一个工具。现在用得还不是很熟,主要是杂事太多、案例太少,没有太多实践的机会。河里有一位老兄的经历倒是非常适合用这个软件来做一个行为分析,等我学得差不多了再来补充一下。

家园 同人兄不去研究社会科学真的可惜了,你有读的进去书的能力

中英文都行,还有理工科背景(如果我猜的不错的话你是学物理类的).

另外此类文章放在这个版面里真的是太可惜了,完全不能发挥出文章的最大效应.

家园 关注中,为了下一代
家园 可以

多说两句为什么DI填鸭式教育不能“得到广泛的支持,仍然饱受争议?因为其不符合米国主流的、传统的教育理念?

DI的结果是不是从某种角度可以给中国长期的填鸭式教育稍微地正一下名声呢?

可以
家园 填鸭式多不自由,多不民主啊...
家园 同人兄说的多是统计有用的一面

俺来说说局限性的一面。

1. 统计本质上是总结过去,并以过去推算将来,准确一点,是将来的概率。对当前变化的因素考虑较少(过去变化的因素已经涵盖在统计中了)。比如:红酒例子中,葡萄园边上刚修了个化工厂呢?或者上游修了个养猪厂(中国的例子,猪粪多了是一种污染。呵呵)

2. 统计的滞后。从俺的经验来说,统计结果主要起个教长期的经验性数据佐证,比较多的还需要直接调研。基础这个比例高点,宏观的直接调研比例可以略低点。红酒的例子中,如果采购商坐在办公室里靠统计数据搞采购,是要出大乱子的。如A地和B地比较,在2000年冬季降水量,生长期温度,和收获期降水量都是A地好得多。但A地上游1999年修了个造纸厂,已经污染到A地了,但还没张扬开。。。

3. 统计的方法和范围的掌握不同,带来的结果确定性不同,这个对宏观预测很致命。比如要预测明年奥马领导下的米果经济:要以什么数据为依据,那些纳入统计范畴,那些服略,采用什么统计技术,国内的参数、国际的参数。。。。大多了,所以各个统计机构各说各有理,事后也可以发现有准确的,但是事前,作为一般人,听哪家统计机构的结论呢?

4. 统计的成本高昂,特别是准确的统计成本。统计需要较多的数据,以及这些数据的采集、处理、分析。红酒的例子,先直接到A地走访一下,后面就不用统计了,直接选B地。

原来在基层做经济工作,赶上大学也是学这口的。但在实际工作中,统计的作用是有一定限制的。只能在数据的基础上发觉一些较普遍的规律。如预测一个区的发展,历年数据是平均增长12%,近两年增速加快,分别为前年13,去年13.2%,这样你基本上可以判断今年的增长基本上在12%的基础上综合考虑各种加减因素来判断,但不会离12%太远。但到底远多少,就需要走访企业作具体调研,不同行业的当前发展趋势和受金融危机的影响、竞争态势都是要考虑的。

数字是重要的,过分强调数字,远离基层的看数字是相当有害的,因为数字容易被歪曲,活生生的现实不容易。如果说不是“统计方法只是社会科学研究的一种补充手段”的话,统计方法也只是社会科学研究的一种手段,“一种”而已。呵呵。。 统计还是很有用的,blah,blah。。。。

家园 热烈庆祝同人兄再次下河

刚看到你BLOG那边有更新,河里居然也发了:)

您的天才训练指南实在让我受益匪浅

期待升级版

家园 送花得宝

恭喜:你意外获得【通宝】一枚

鲜花已经成功送出。

此次送花为【有效送花赞扬,涨乐善、声望】

家园 经济学本身就用数字比较多,所以能发现比较多统计上面的局限

性,但是至少也说明了统计学的作用很大,甚至可以说是起决定性作用的.但是问题是如果你有仔细观察其他社会科学方面的研究,你会发现很多时候那些所谓的社会学家都是在那靠"想"来做研究,而往往距离事实很遥远.所以同人于野的这个帖子和那个{社会科学的全面数字化}的那个帖子,里面举的例子多不是关于经济学的.比如这个帖子里面的关于法律投票预测结果的小故事,就说明了多使用数据肯定比少用数据要强的多,同时那75%的成功率自然也说明了完全靠统计也不是很完美的.

家园 不能送两次花。
家园 很赞同此时此刻是社会科学全面发展的黄金时期这样的说法

要用统计学来作为基本的研究手段,不要让茅于拭这样的‘学者’信口开河。

全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河