五千年(敝帚自珍)

主题:【原创】社会科学的全面数字化 -- 同人于野

共:💬106 🌺360 🌵16
全看树展主题 · 分页首页 上页
/ 8
下页 末页
家园 关于分布公式

眨眼之间:不假思索的思考力量,这本是讲直觉瞬间判断的吧?

Super Crunchers在台湾有译版,大陆这边好象还没出.这本只是灌输概念的通俗读物,真正data mining还得去找教材.

黑天鹅那本书对高斯分布很贬低.为何统计学家会把很多分布认定为高斯分布呢?就象排队问题总是用泊松分布去套一样,我一直不明白为何排队就是泊松的,只知套公式.

因为这样套用就会有最小方差?

家园 高斯分布有个重要的性质

任何分布,它们的sample mean的分布均符合高斯分布。

家园 抓住行家问一下

请问您这么说,是否说黑天鹅那本书对高斯分布的贬低是错的?

看到那一节,我有点糊涂,不知相信谁好。

家园 不好说,就事论事

那书我没看过。我是就事论事,不涉及到那本书。高斯分布有很多很美好的性质,在计算基本靠手的日子里,它给了统计学家很多安慰和希望。

当然,反对高斯分布的人也很多。他们说,嘿!统计小子们,你们看到钟型曲线分布很激动吧,以为那是高斯分布,其实那也有可能是Cauchy分布。

点看全图

外链图片需谨慎,可能会被源头改

Cauchy这个分布很毒,我看就是绝户分布,没有mean,没有方差,很奇怪吧(这里有解释。)。所以搞统计的,你们怎么知道研究的是高斯,而不是Cauchy分布呢?

家园 大概就是这个道理

那个连接我看了,头马上大了一倍,里面的公式。。。。

那本书里有一节对高斯分布大肆攻击,主要观点是指高斯分布的应用范围很窄,最令人发指的是在金融界里很多人靠这个吃饭。不知道这次金融危机跟滥用高斯分布有无关系?

家园 好像是这本

超级数字天才

作  者: (美)艾瑞斯 著,宫相真 译

出 版 社: 中国青年出版社

* 出版时间: 2008-8-1

家园 现在火箭队的经理穆雷就是干这个的。

把球员所有数据都数字化,然后决定球员的未来。

家园 所谓没有调查就没有发言权嘛

常常看到的是几个例子吃一辈子,很容易混啊!

家园 看了一下link

凭着俺残存的一点数学记忆.

大概理解了一下为啥没有mean, 没有方差, 原来是这个分布看着象高斯, 实际上两边的尾巴比高斯粗很多, 高斯的尾巴是指数级变细的, 这个分布的尾巴是平方级变细的, 导致的结果是尾巴太胖, 算mean要算所有分量的积分. 尾巴太胖, 一积分体重就无穷大, 所以没法算积分, 也就没有mean了.

家园 有关统计, 多说两句

看到统计分析用的越来越广, 在社会科学上得到全面应用, 亦喜亦忧. 喜的是俺本是个工科脑袋, 专爱严密的hard science, 不喜欢定性研究为主的soft science. 看到soft science逐渐硬化, 心中自然高兴. 忧的是, 数据统计本身太多trick, 差之毫厘, 失之千里. 曾有幸听某统计界大牛讲座, 一上来就把美国搞药物研究的人骂个臭死, 说他们那种漏洞百出的实验,根本无法说明药物是否有效性. 此观点也许极端, 但确实做统计研究要慎之又慎, 如果把统计分析结果用到社会分析决策这么重大的领域, 如何保证其结果的严密性, 不为掌握工具的人操控, 而让大家放心. 是一个必需考虑的问题. 最恐怖的就是民众,领导都是外行,被少数有私心内行打着科学的旗号唬了而导致严重后果.

家园 迷信数字化和单纯思辨都是一厢情愿

一个把脑子交给了数字,一个把脑子当成了世界;一个是精神上的乞丐,一个是梦中的贵族。

家园 因为世界不是完美的

完美的世界里,由于central limit theorem,我们看到的很多事情是大量随机事件的总和,都是服从高斯分布的。但是只要有人掺和进来,就不那么随机了。比如说大家去参观航空母舰的飞行甲板,假设每个人对弹射器都比较感兴趣,那么甲板上人群的分布应该是围绕着弹射器的高斯分布。但是突然有两个人尿急,跑到甲板的左边想撒尿,结果一甲板的人以为左边有什么新鲜玩意,都一窝蜂都跑到左边去了,然后船就翻了。

当然这个是非常不靠谱的例子,一般来讲,实际的分布都比高斯分布的尾巴要肥,也就是说极端情况更多。比如如果假设股价是连续的随机变化,未来某个时间股票可能的价格(的对数)是高斯分布。但是如果考虑到股价变化有跳跃——因为新闻总是在闭市的时候发的——那尾巴就肥了。考虑到有散户跟风,尾巴就更肥了。

重要的是,虽然尾巴肥不了多少,总体上看着还是一个高斯形状,但是起决定性因素的,往往就是右尾巴尖的那一点。这个概率从万分之一跳到万分之十,可就有很多基金经理要跳楼了。

说到底,并不是定量分析有什么问题,而是分析使用的模型要弄对,或者至少应该对模型的错误比较容忍。

错的不是定量分析,而是用错了模型。再怎么着都比定性分析——又称忽悠——强多了。文科生屁股决定脑袋没办法。不忽悠你让他们干什么去啊

家园 实际效果如何呢?

再强大统计分析也只是对以往的经验的提炼,一般只适合比较平稳的社会环境和行业下,

因为数字是死,人是活的。再高明复杂的KPI体系要对付聪明的人类都欠缺些,对应付复杂多变的环境都是不足的。

牛肉是好吃,只是吃多了还是会营养不良。

家园 凡事不能矫正过正

我很赞同你关于国内对统计学的重视和运用水平都太低,应当大力推广统计学的运用。但不建议将统计学的作用推得太高,至少现在不行。实际上每本统计学理论书上都会对这方面进行论述。统计学只是一种工具,他的模型提出和判断实际上是取决于这门学科本身的内在关系。严格地说你上面说举的例子只能说他们的答案有较大可能。

家园 高斯分布是最重要的分布

没有之一。

我没看过黑天鹅,不知道它如何批评。

从数学角度看,概率论里有所谓“中心极限定理”(Central Limit Theorem, CLT),是说:

大量的独立的随机变量的平均数的分布趋向于高斯分布。

最简单的例子是你掷10000次硬币,正面算1,反面算-1,所有数的平均数一定是以0为中心的高斯分布。

这里“独立”这个条件很重要,实际生活中经常不满足,所以常常有其他分布和相应的极限定理。

下面ducati,老马丁解释的都很好。

尽管有些缺点,高斯分布仍然是最重要的分布,没有之一!

全看树展主题 · 分页首页 上页
/ 8
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河