五千年(敝帚自珍)

主题:【原创】老马丁胡侃统计之一: 统计概率学科的由来 -- 老马丁

共:💬23 🌺112
全看树展主题 · 分页首页 上页
/ 2
下页 末页
家园 【原创】老马丁胡侃统计之一: 统计概率学科的由来

2007年的最后一天,老马枯坐电脑前,惮精竭力忙备课,顺手发贴骗花好过年呀,好过年!

受到河里这个老马看不太明白的统计贴的影响,也来凑个趣,胡写个超幼稚的,盘点一下老马的专业技能工具箱,XXXX学,XXXX论和应用统计分析就是老马混饭吃的钳子,扳手和螺丝劈。老早就想和大家聊聊自己关于统计的一些小心得。河里河外高人众多,咱不是专门搞统计的,贻笑大方之言,静候玉制板砖。

老马瞎侃统计之一: 统计概率学科的由来

统计学是关于收集,分析和解释数据的学科。一句话,跨学科数字出活。统计学的成立也不过就两三百年的事情,但是它为人类对自然的认识提供一个非常重要的工具:先是天文学,然后是物理学,然后是化学,然后是社会科学,现在是生物科学。更重要的是,直到今天,统计还为全球数千万人提供了养家糊口供房子的饭碗,而且这个饭碗是带有自动添饭功能的。

统计如何产生的?我的想法是,当人们对生活中的事件数不清也数不明白的时候,甚至是借助当时最先进的计算工具也数不清的时候,数学家们开始建立一套新的系统,引入随机变量这个重要的概念,在概率论的基础上建立了统计学。随机变量的分布让人们对问题的认识不再局限于具体数量的纠缠,而能放在整体和全局上进行。这个想法是很美好,不过呢,咱查了查资料发现不对:咱把人类想太高尚了。

各种资料表明,统计起源于概率,而概率起源于赌博。人类几千年下来,赌博这种重要的社会经济活动迟早要引起数学家的关注的,窃以为数学家们心里有数,手里有笔,他们在赌场上的表现应该比一般人更好,数学家们也是人嘛。终于到了十五世纪有两个数学家忍不住了。大数学家费马费老QQ另一数学家帕斯卡(无法衡量其级别,不过有个计算机语言以他命名,相必贡献不小),提出一个当时巨难的赌博问题:“现有两个赌徒(他俩?)扔骰子比大小,赌若干局,谁先赢50局才算赢。当赌徒甲赢 30局而赌徒乙赢20局时公安抓赌,赌局中止,两人带着赌本落荒而逃,那赌本应怎样分才合理呢?” 于是他们想呀想,算呀算,开始了有记录的人类对概率问题系统的思考。

到十七世纪时,让人耳熟目详的名字开始出现了。最先出现的是白努利Bernoulli。雅各布.白努利老师出身于欧洲知名的科学世家-瑞士白家。白老师一开始是以顶级数学家的标准要求自己的,不过处于牛顿牛老师和莱布尼兹莱老师那个伟大的数学时代,咋说呢?他总算马马虎虎的做到了这一点。到了晚年(其实也不很晚,白老师也就活了50岁零8个月),白老师写了个有名的帖子,叫“猜猜看的艺术”( The Art of Conjecture),据说算是人类历史上最早的正式关于概率的文献(之一)。白老师讨论了群众喜闻乐见的上手快见效早的赌博方法:抛硬币猜正反。他提出了计算抛一次和抛多次硬币出现某面概率的方法。在白老师单次抛硬币的研究上,后人形成了最简单最基本的概率分布,该分布就以白老师命名:白努利分布;在白老师多次抛硬币的研究上,后人有了个更大的发现:统计之魂大数定理。大数定理用抛硬币的例子来解释就是,多次抛硬币,正反出现的概率应该趋向于一半对一半。

点看全图
外链图片需谨慎,可能会被源头改

【白努利白老师】

下一个耳熟的名字是柏松(Siméon Denis Poisson)。柏松先生用以养家糊口的工作是数学家和物理学家。他整出了柏松分布,大意是某个具体时段某些事情发生次数(0,1,2,…)的概率的一个表达式。咱常用柏松分布来做和生活中和时间有关的决策,比如说在一个满的停车场等空位子。咱的办法是挑条lane坐等,而不是转悠来转悠去去。原因嘛,在某一时段里里一个停车场离开出来的车的数目是符合柏松分布的。如果平均下来咱坐等那条lane每3分钟就有一辆车离开的话(这个很合理吧),那么10分钟内白等(无车离开)的概率是较小的:低于5%。

点看全图
外链图片需谨慎,可能会被源头改

【柏松先生】

下一个知名人士是德国数学家高斯高老师(Carl Friedrich Gauss),这个名字更响亮了。统计课本里常说的高斯分布,其实有个更响亮的名字:正态分布。正态分布概念是由德国天文学家莫伟先提出来的,但架不住推广它的高老师名气大。正态分布是最重要的一种概率分布,我的理解是它是构筑另一个统计之魂中心极限定理的基础。大意是任何概率分布都能和正态分布挂上勾。具体来说就太复杂了,不过不知道这个定理丝毫不影响人生的完整,咱就不解释了。

点看全图
外链图片需谨慎,可能会被源头改

【天才高斯】

高老师同时也做了许多让概率往统计方向转化的工作。比如说,他推广应用了最小二乘法(Method of least squares),这已经是统计而不是概率了。直到今天最小二乘法都有大量人士人使用,它最普遍的应用形式是回归分析(Regression analysis).

越扯越远。进入20世纪后,好几个大牛,比如说Ronald Fisher和Andrey Nikolaevich Kolmogorov(柯尔莫哥洛夫),还有Karl Pearson,Henry Scheffé和Jerzy Neyman等一起努力, 终于建立了统计学。还有Bayesian的一伙人,不过他们里面好像没啥大牛人。他们的事迹以后有时间再写吧。

下接老马丁胡侃统计之二: 生活中的几个概率统计问题

关键词(Tags): #统计#老马丁胡侃统计#概率元宝推荐:闲看蚂蚁上树,橡树村, 通宝推:springisok,

本帖一共被 3 帖 引用 (帖内工具实现)
家园 sofa

听一位统计学家说数学家不承认统计学属于数学,呵呵。

家园 麦克斯维说...
家园 前排听讲
家园 两天不在,老马抢先开了这个系列,花顶!
家园 .
.
家园 老马谦虚了。我也不是专搞统计和概率的。

祝新年快乐!

家园 收之,花顶!
家园 新年送花
家园 花一个,俺没学过统计,赶上老马科普,正好给自己扫扫盲
家园 del
家园 送花听课,谢马丁兄介绍。
家园 不大清楚Bayesian在统计学上的地位, 但是

不大清楚Bayesian在统计学上的地位, 但是现在搞IT的不知道Bayesian都不好意思跟别人打招呼.

搜索引擎, 垃圾邮件/信息过滤, etc. 应用广泛, 效果又好,我们都用它

家园 报告教授----关于人的名字

白努利--国内一般好像叫做“贝努利”,

柏松(Siméon Denis Poisson)---国内叫做“泊松”,

Bayesian---是不是那个叫做“贝叶斯”的家伙?博弈论相关的“条件概率”是不是这位老兄的杰作?

家园 马老师写得真好,有点儿像小时候读的物理世界奇遇记了!送花!
全看树展主题 · 分页首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河