五千年(敝帚自珍)

主题:【原创】统计狂人 -- 淮夷

共:💬42 🌺358
全看分页树展 · 主题
家园 【原创】统计狂人

点看全图

外链图片需谨慎,可能会被源头改

《Super Crunchers》是2007年耶鲁大学法学教授Ian Ayres写的一本畅销书。此书讲述统计学对日常生活和决策的影响。

对于学过统计学,或者用过SAS、SPSS这类建模工具的读者,此书的内容是很浅的。实际上,作者并未做技术讨论,只是简单介绍了几个基本的统计概念,比如正态分布、标准差、贝叶斯公式。

可以说,这是一本写给没学过统计学的人看的书。就像章诒和的《伶人往事》是写给不看戏的人看的。

字面上,data crunching和data mining意思差不多,指的是对历史数据进行统计分析和建立模型,试图发现数字中隐藏的规律。统计模型的目标并不是还原历史,而是预测未来。譬如书中提及的葡萄酒定价预测。

对专业品酒师而言,判断葡萄酒的质量,最重要的办法是品尝。他们依赖舌头的口感和累年直觉,推断一瓶酒价值几何。这是品酒师作为一个职业赖以存在的基石。

1980年代,普林斯顿大学的经济学家欧莱,提出一个全新的预测办法:

葡萄酒的品质 = 12.145 + 0.00117×冬季降水量 + 0.0614×葡萄生长期的平均溫度 - 0.00386×葡萄收获期降水量

这个多变量回归公式看起来有点复杂。但是欧莱的逻辑说来简单:酒的质量取决于葡萄质量->葡萄是一种农产品->任何农产品的质量必然受到当年气候的影响。

从这个线索出发,欧莱挖掘了过去几十年法国波尔多(葡萄产地)的气象资料,然后和各年出产的葡萄酒品质逐一比对。他发现在又干又热的年份,葡萄成熟得好且汁浓,这种葡萄酿出的酒,酸度低且醇郁,是酒中上品。

欧莱的统计模型有一个好处,就是鲜葡萄刚摘下来,还没开始酿呢,人们就可以把当年气象数据放入模型,直接预测葡萄酒的品质和价格了。比如模型里有一个变量是”0.00386×葡萄收获期降水量”,这个变量的意思是,降雨每增加一毫米,葡萄酒的价格将降低0.00386美元。

这个模型对品酒师而言,简直是当面打脸,北京话说的“呛行”,抢人生意。品酒行业的大师罗伯特坐不住了。罗爷愤愤道:欧莱是一个彻头彻尾的骗子(“ an absolute total sham”),用数学公式预测酒的美味是荒谬的。

罗爷虽然火大,数学预测的结果与酒价的真实走势节节相符。相形之下,品酒师赖以生存的伎俩只是故作高深的鉴酒行话,比如这瓶酒尝起来非常之“musical, tight, rakish”。听来仿佛是赵丽蓉的台词:这酒怎么样,听我给你吹。

是故,相信大师的直觉,不如相信数字。这句话便是本书的核心观点。

题外话,在我看来本书的一大缺点,是过于推崇统计学和数字化。我觉得统计模型的几个弊病是值得专门探讨的(而此书并未讨论):第一,历史数据很容易被人为操纵,许多自洽的模型并非基于真实的历史。第二,统计意义上的关联常被解释为存在因果关系。用A可预测B,并不等于因为A才有B。没有因果关系的模型难免造出一些空中楼阁的预言。第三,复杂性的系统很难用任何现有统计工具预测,比如气象,比如外汇市场。过度相信数学的结果,是看不到黑天鹅的存在。

尽管有上述弊端,统计学的应用仍然已经渗透到美国社会各个层面。受到数据挑战的职业,除了品酒师,还有形形色色的所谓专业人士。比如棒球联赛的星探,传统的星探挑选潜力球员,全靠一双肉眼和感觉,而詹姆斯根据历史数据,用一个数学公式评估球员。

这个公式是这样:球员价值=(Hits+Walks)×Total Bases/(At Bats+Walks)。

我完全搞不懂这个公式的涵义。但是据Michael Lewis的畅销书《Moneyball》所叙,詹爷的公式打碎了颇多专业球探的饭碗。

在好莱坞,很多演艺人士的饭碗也受到威胁。书中提到一个数据分析公司叫做Epagogix。这家公司在电影开拍之前,不需要知道谁是导演和演员,仅凭剧本的内容就能直接预测电影的未来票房。它的预测准确率颇高,而且可用统计软件对剧本进行分解和情节改动,从而直接提高票房预测值。

这是数学模型对艺术创作的干涉。观众也许并不知情,但是他们走进电影院看到的所谓“好看的电影“,可能是机器的智慧,而不是编剧的才华。

还有一个类似的现象是教育领域。本书提及一个小学的教学法叫DI(Direct Instruction),中文的意思大约是“照本宣科”。根据DI法,教师上课时手拿一本事先编好的剧本,上面写道:同学们,让我们翻开课本到第X页,把手指放到课文标题下面,我数1、2、3,大家和我一起念…”

这个教学法的奇特在于,整堂课的全部台词都是事先统一印好的,老师照着念就成。不需要什么明星教员和个人魅力,庸师也能出高徒。

在美国的教学实验中,毫无人性的DI法对提高小学生能力竟是最有效的。这种工厂流水线的课堂模式得到了统计数字的支持,尽管美国的教师们并不肯买账。

面对此种被数字全面渗透的社会,不知黄仁宇若在世,做何感想。黄仁宇著作我读到频率最高的词是“数目字管理”。老黄感叹,中国历代王朝因为缺乏数目字管理的能力而在近世逐渐落在西方社会之后。

“数目字管理”这个拗口的词对今日中国并未完全过时。中国各地诞生过很多朝令夕改的公共政策,这些决策往往是当局者一拍脑袋拍出来的,而未经过严谨的数据论证。我有一次在新疆,一个饭局上见到当时的自治区副主席陈雷,陈随口背诵新疆各种数据,这算是一个很好的习惯了。不过,宏观层面,施政在中国似乎仍是一门艺术,用不到统计模型。

但在微观层面,data mining的商业价值已被许多中国企业注意到,且越挖越深。

譬如我的手机,每天收到10条以上广告短信,短信有卖房的,卖车的,还有卖发票的。这些广告并非群发给全国人民的,而是定向发送部分用户。什么样的用户呢?如果你是中国移动的VIP、或者你持有某家银行信用卡、或者你是某家航空公司的常旅客会员,你一准儿能收到此种广告,因为你的会员信息早被卖给广告商了。

出售会员信息牟利只是初级阶段。事实上,会员数据库是一个极有价值的金矿。统计狂人(本书标题所谓的super crunchers),根据你的刷卡记录、飞行记录、电话记录,利用统计模型可精准预测出你的未来消费趋势。

于是,顾客懵然不知之时,商家已针对其消费习惯制定了专门的营销策略。

这种被称作“数据库营销”的活动,在美国形成一个庞大的产业,专业的数据库营销公司已有在交易所上市的。在中国,这个产业2001年才出现。我见过几个自称做数据库增值服务的中国公司,基本上停留在花钱买个名单之后群发广告这种粗糙的营业模式,远谈不上数据挖掘的深度。

而以中国人口之多,消费数据积累之快,数据挖掘这门生意在中国的前景实在是光明的很。

话说回来,作为一个消费者,你真的愿意被这样数据挖掘吗?

好处是你有时候会感觉到方便。比如在亚马逊网站浏览的时候,网站会自动显示出你可能会感兴趣的关联书籍。这种便利是亚马逊应用统计模型对消费者进行后台分析的结果。

不好的地方在于,商家越殷勤,钱包越要看牢。书中提到一个有趣的案例是拉斯维加斯的赌场。赌场有一种消费卡,赌客刷卡赌博的时候,如果输的太多,快要达到”pain point”(痛苦点),系统会提示赌场员工邀请该赌客吃牛排,给他抚慰。目的是让赌客保持住对赌博的兴趣。

书中提到的赌场,其经营商叫做Harra’s(哈拉斯)。哈拉斯是全球最大的赌场运营公司,我有一次在北京和哈拉斯的亚太总裁见面,听他亲口说起赌场的这些猫腻,颇觉可怖。他说,哈拉斯计划把美国赌场的数据挖掘模式扩到澳门。澳门的赌徒们,你们被牛排了吗?

乔治奥威尔的小说《1984》描述过一个想象中的1984年的社会,这个社会的每个成员都被高度监控。他是这样写的:“你发出的每一个声音,都是有人听到的,你作的每一个动作,都是有人仔细观察的。”

2011就要到了,1984仍未离开。

元宝推荐:抱朴仙人,老马丁, 通宝推:tt086071,foureyes,上善若水,深夜腌的萝卜丝,Soen,铸剑,快刀浪子,史文恭,月光下的尘,

本帖一共被 3 帖 引用 (帖内工具实现)
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河