主题:【原创】社会科学的全面数字化 -- 同人于野
眨眼之间:不假思索的思考力量,这本是讲直觉瞬间判断的吧?
Super Crunchers在台湾有译版,大陆这边好象还没出.这本只是灌输概念的通俗读物,真正data mining还得去找教材.
黑天鹅那本书对高斯分布很贬低.为何统计学家会把很多分布认定为高斯分布呢?就象排队问题总是用泊松分布去套一样,我一直不明白为何排队就是泊松的,只知套公式.
因为这样套用就会有最小方差?
任何分布,它们的sample mean的分布均符合高斯分布。
请问您这么说,是否说黑天鹅那本书对高斯分布的贬低是错的?
看到那一节,我有点糊涂,不知相信谁好。
那书我没看过。我是就事论事,不涉及到那本书。高斯分布有很多很美好的性质,在计算基本靠手的日子里,它给了统计学家很多安慰和希望。
当然,反对高斯分布的人也很多。他们说,嘿!统计小子们,你们看到钟型曲线分布很激动吧,以为那是高斯分布,其实那也有可能是Cauchy分布。
Cauchy这个分布很毒,我看就是绝户分布,没有mean,没有方差,很奇怪吧(这里有解释。)。所以搞统计的,你们怎么知道研究的是高斯,而不是Cauchy分布呢?
那个连接我看了,头马上大了一倍,里面的公式。。。。
那本书里有一节对高斯分布大肆攻击,主要观点是指高斯分布的应用范围很窄,最令人发指的是在金融界里很多人靠这个吃饭。不知道这次金融危机跟滥用高斯分布有无关系?
超级数字天才
作 者: (美)艾瑞斯 著,宫相真 译
出 版 社: 中国青年出版社
* 出版时间: 2008-8-1
把球员所有数据都数字化,然后决定球员的未来。
常常看到的是几个例子吃一辈子,很容易混啊!
凭着俺残存的一点数学记忆.
大概理解了一下为啥没有mean, 没有方差, 原来是这个分布看着象高斯, 实际上两边的尾巴比高斯粗很多, 高斯的尾巴是指数级变细的, 这个分布的尾巴是平方级变细的, 导致的结果是尾巴太胖, 算mean要算所有分量的积分. 尾巴太胖, 一积分体重就无穷大, 所以没法算积分, 也就没有mean了.
看到统计分析用的越来越广, 在社会科学上得到全面应用, 亦喜亦忧. 喜的是俺本是个工科脑袋, 专爱严密的hard science, 不喜欢定性研究为主的soft science. 看到soft science逐渐硬化, 心中自然高兴. 忧的是, 数据统计本身太多trick, 差之毫厘, 失之千里. 曾有幸听某统计界大牛讲座, 一上来就把美国搞药物研究的人骂个臭死, 说他们那种漏洞百出的实验,根本无法说明药物是否有效性. 此观点也许极端, 但确实做统计研究要慎之又慎, 如果把统计分析结果用到社会分析决策这么重大的领域, 如何保证其结果的严密性, 不为掌握工具的人操控, 而让大家放心. 是一个必需考虑的问题. 最恐怖的就是民众,领导都是外行,被少数有私心内行打着科学的旗号唬了而导致严重后果.
一个把脑子交给了数字,一个把脑子当成了世界;一个是精神上的乞丐,一个是梦中的贵族。
完美的世界里,由于central limit theorem,我们看到的很多事情是大量随机事件的总和,都是服从高斯分布的。但是只要有人掺和进来,就不那么随机了。比如说大家去参观航空母舰的飞行甲板,假设每个人对弹射器都比较感兴趣,那么甲板上人群的分布应该是围绕着弹射器的高斯分布。但是突然有两个人尿急,跑到甲板的左边想撒尿,结果一甲板的人以为左边有什么新鲜玩意,都一窝蜂都跑到左边去了,然后船就翻了。
当然这个是非常不靠谱的例子,一般来讲,实际的分布都比高斯分布的尾巴要肥,也就是说极端情况更多。比如如果假设股价是连续的随机变化,未来某个时间股票可能的价格(的对数)是高斯分布。但是如果考虑到股价变化有跳跃——因为新闻总是在闭市的时候发的——那尾巴就肥了。考虑到有散户跟风,尾巴就更肥了。
重要的是,虽然尾巴肥不了多少,总体上看着还是一个高斯形状,但是起决定性因素的,往往就是右尾巴尖的那一点。这个概率从万分之一跳到万分之十,可就有很多基金经理要跳楼了。
说到底,并不是定量分析有什么问题,而是分析使用的模型要弄对,或者至少应该对模型的错误比较容忍。
错的不是定量分析,而是用错了模型。再怎么着都比定性分析——又称忽悠——强多了。文科生屁股决定脑袋没办法。不忽悠你让他们干什么去啊
再强大统计分析也只是对以往的经验的提炼,一般只适合比较平稳的社会环境和行业下,
因为数字是死,人是活的。再高明复杂的KPI体系要对付聪明的人类都欠缺些,对应付复杂多变的环境都是不足的。
牛肉是好吃,只是吃多了还是会营养不良。
我很赞同你关于国内对统计学的重视和运用水平都太低,应当大力推广统计学的运用。但不建议将统计学的作用推得太高,至少现在不行。实际上每本统计学理论书上都会对这方面进行论述。统计学只是一种工具,他的模型提出和判断实际上是取决于这门学科本身的内在关系。严格地说你上面说举的例子只能说他们的答案有较大可能。
没有之一。
我没看过黑天鹅,不知道它如何批评。
从数学角度看,概率论里有所谓“中心极限定理”(Central Limit Theorem, CLT),是说:
大量的独立的随机变量的平均数的分布趋向于高斯分布。
最简单的例子是你掷10000次硬币,正面算1,反面算-1,所有数的平均数一定是以0为中心的高斯分布。
这里“独立”这个条件很重要,实际生活中经常不满足,所以常常有其他分布和相应的极限定理。
下面ducati,老马丁解释的都很好。
尽管有些缺点,高斯分布仍然是最重要的分布,没有之一!