五千年(敝帚自珍)

主题:298-Raymond Flood:平均数是否典型? -- 万年看客

共:💬2 🌺8
全看树展主题 · 分页首页 上页
/ 1
下页 末页
家园 298-Raymond Flood:平均数是否典型?

https://www.youtube.com/watch?v=9NLbQWXVtCA&list=PL4i9YSoIJiPfAq5TCk7xdVrJlxRAMbay-&index=51&t=1504s

这是我这次关于现代数学与统计学的系列演讲的第五场,题目是“平均数是否典型?”答案是“不是也是”。万一你急着要走的话,这就是本场讲座的总结。关于统计学的知识不仅对于那些呈现统计争论的人们至关重要,对于接受争论结果的人们同样至关重要。我认为我们在各种各样的重要领域全都是统计数据的接受者。有些时候统计数据可以用来描述群体或者行为,例如本次讲座听众的年龄构成,或者不同医院在特定时期的死亡人数。有些时候统计学通过采样方式来比较人口,目前伊斯利正在举行的递补选举就很需要统计学来进行民调。民意调查试图从样本推断出全体选民的行为。全体人口与样本的区别在这场讲座当中非常重要。

我我首先概述一下本次讲座的整体框架。首先我想讨论怎样总结一套数据。第一种方式是视觉方式,也就是采用图表、地图、示意图或者直方图。我们要看看埃德蒙.哈雷对于彗星的著名研究,弗洛伦斯.南丁格尔,约翰.斯诺的传染病研究,最后还要看看卡尔.皮尔森的一部分作品,此人曾经是曾经是格瑞萨姆学院的几何教授。这些人的作品全都在一定程度上企图用样本体现总体。下一种方法是用若干特征来体现总体。这种方法又分为两大类,第一类描述位置度,也就是数据集的典型值或者中心值,比如平均数和中位数,我们将要考察这两者各自的优势和劣势;第二类衡量数据的变异度与离散度,从而试图描述数据集的变异,例如极差与标准差,我们同样要考察这两者各自的优势和劣势。

位置度和变异只能提供关于数据集的非常偏颇的信息。只需几个数字就能产生太多变异,难以全部体现。我们需要非常精确地量化变异,所以我们需要概率。我会举几个例子来介绍概率,比方说哈雷怎样利用概率来计算年金的支付数额,以及他如何从数据当中提取出了概率。另一个例子是彩票。为了最大化你的胜率,我建议你不要购买彩票,不过我不是财务顾问,这里的概率来自数学模型。最后的例子涉及样本与总体之间的关系,我的问题是样本能够多么可靠地反映总体。比方说即将有一场递补选举,每位参选者都能得到一定比例的选民的支持。假设从选民当中抽出1200人,他们多大程度上能够代表全体选民?只要样本确实出自随机选取,那么这个样本很可能接近总体选民的选举倾向。惊奇的是,我们还可以量化这两者的差距多么接近,根据则是关键的统计学与概率结论,即中心极限定理。这一结论及其对于样本大小的重要性是我最后要讨论的话题……

所以首先来看看图表如何形容总体。首先是表格,这种技术存在了好几千年,可以追溯到美索不达米亚,今天依然是Excel之类软件的核心概念。埃德蒙.哈雷在十七世纪后期与十八世纪早期的科学界影响很大,他今天最著名的事迹大概就是凭借牛顿力学定理预测了某颗彗星在1758年的回归——这颗哈雷彗星最近一次于1986年回归,下次要到2061年。牛顿的《自然哲学的数学原理》也多亏了哈雷才得以付梓。牛顿在这本书里提出了引力定律与运动定律,用来解释行星的运动,彗星的轨道,潮水的涨落,以及地球自转导致两极被压平的现象。全靠哈雷好言好语哄着牛顿,才促使牛顿将《数学原理》交付出版。没有哈雷,这本书就不会问世。更重要的是,皇家科学院之前出版了一套耗资不菲的《鱼类历史》,所以没有预算出版牛顿的书,哈雷只得走了自费出版的路子。于是皇家科学院送给他五十套《鱼类历史》作为奖励。这就好比格瑞萨姆学院的员工领工资的时候拿到的不是钱,而是讲座教授的讲义,这幅景象着实不甚吸引人。

哈雷的另一项功绩是创造了精算科学。我们可以看到这张表格是他对于年金或者说养老保险的计算。表格上的数据来自布雷斯劳的牧师Caspar Neumann,此人纪录了1687年到1691年之间教区的人口情况。表格分为两栏,第一行是1000名活到一岁的儿童,第二行是活到两岁的儿童855名,第三行是活到三岁的儿童798名,然后是四岁、五岁并依次排列。这里有一些数字非常骇人:在每1000名活到1岁的儿童当中,能继续活到6岁的只有710人,将近300名儿童此时已经死去;到了34岁时已经死了一半,到了74岁时只剩下100个人还活着——可以注意到表格的最后一行是84岁,20人。哈雷利用这张表格与复利概念来计算自己每年应当支付多少年金才最划算。待会我们讲到概率的时候,我来解释一下他的具体算法。

十七世纪的最热门科学是磁力学,因为磁力可以用来导航。哈雷对此非常感兴趣,为了满足科学界对于地球磁场的好奇,哈雷成功争取到了HMS帕拉莫号战舰的船长职位,前往大西洋考察不同地点的磁偏差变动情况,也就是磁北极与真北极的差距。1701年他回到英国,出版了的本次科考的成果:一张令时人惊叹的地图。他采用表现技术将将磁偏差相同的位置用线连起来,地图上颜色最深的线就是磁偏差为0的区域。在这条线上北磁极与正北没有区别。当然我们如今非常熟悉这种所谓的ISO技术,也就是将数据相同的点连成线。这种技术适合表现等高线与海洋深度,适用于各种制图学与地理学作业。天气图表也可以用这种技术来显示天气模式如何改变。

接下来我想向大家介绍的数据视觉化手段来自弗罗伦斯.南丁格尔。提灯女士南丁格尔在克里米亚战争时期拯救了很多性命。她也是名优秀的统计学家,专门收集分析战场上的死亡数据。她早在9岁就表现出了对于数学的兴趣,并且用表格来表现数据。20岁的时候她接受了数学教育,老师大概是著名数学家詹姆斯.约瑟夫.西尔维斯特。南丁格尔认为统计学是最重要的科学,并且利用统计方法来支持自己的行政与社会改革。她是第一个当选成为皇家统计学院成员的女性,还是美国统计学院的外籍荣誉成员。1852年她已经声名在外,被广泛视作一名干练的行政人员与项目管理专家。她在护士职业化方面的工作让她在位于土耳其的英国军医院获得了女性护士学院院长的职务,当时英军正在那里进行克里米亚战争。她在1854年就任,上任伊始就惊骇于军医院的糟糕管理状况。为了改变工作态度与做法,她用数学图表展现了统计数据。这些图表呈圆形,被分成12个扇区,覆盖了1854年四月到1855年三月之间的时段。每个扇区又用颜色区分了不同死因:疾病、战斗以及其他原因。显而易见,其他原因导致的死亡占据了总死亡人数的大头。南丁格尔借助这些图表向当权者表明,如果不必要的死亡得到完全避免的话可以救活多少人。

1858年回到伦敦之后她继续使用统计数据来影响公共卫生政策。她鼓励人们收集不同医院的同类数据,这些数据包括各家医院收容病人的数量,提供的疗法种类——根据年龄、性别与疾病加以进一步细分,住院时间以及康复率。听上去很耳熟是吧?她向有关方面呼吁,在1861年人口普查当中纳入家中病人数量与居住环境标准这两条,因为她意识到了健康与住房之间的重要关系。南丁格尔还试图教育政府成员意识到统计的效用,还试图通过在大学开设统计学课程来影响未来。她认为收集数据只是一步,接下来的分析与解读才是关键。唯有正确的解读才能带来足以救命的政治、医学与社会改良。

与此同时还出现了另一项旨在救命的统计学创举,当事人是这位约翰.斯诺。十九世纪三十年代,霍乱在伦敦扩散,1831年的疫情在三个月间夺去了三万条人命。约翰斯诺是一位医生,也是伦敦流行病学协会的创始人。1854年伦敦索霍区霍乱爆发期间,他调查了许多霍乱病人的家庭住址。画面上是他绘制的病人分布图,在布罗德街与剑桥街交叉口附近布满了黑方块,每一个黑方块都是一栋因为霍乱而死过人的住宅。在这个交叉口恰好有一台压水泵。地图上还有其他水泵,不过周围并没有几个黑块。斯诺相信霍乱通过水传染,他发现在剑桥街与布罗德街交界口的压水泵附近,足有500人在10天的区间之内死于霍乱,所有死者都喝了水泵里的水。斯诺劝说地方当局更换了水泵的把手,于是传染病情开始消退。斯诺用这张地图与图表表现了水污染造成的后果。斯诺还因为使用麻醉剂而著名,他用得是氯仿与乙醚。他曾两次运用氯仿协助维多利亚女王无痛分娩。第一次是在1853年,女王生下了利奥波德王子;第二次是在1857年,她生下了比阿特丽斯公主。斯诺本人这张照片是在他在45岁时拍摄的,不幸的是第二年他就去世了。

我要介绍的最后一种绘图技术源自格瑞萨姆学院的几何教授卡尔.皮尔森,后人往往将数学统计学这一学科的建立归功于他。皮尔森从1891年春天到1894年夏天在格瑞萨姆学院执教几何学,总共上了38节课,听众包括文员与伦敦的金融从业者。这38节课当中有30节讲的是统计学。他将几何与统计相结合,引入了两个至今依然非常重要的统计学概念。1891年11月18日他在课堂上提出了直方图的概念。例如画面左边的数据是31颗樱桃树的高度,用表格的方式很难看出这些数据有什么门道。画面右手边是用直方图来表达的同一组数据,横轴是树的高度,按照5英尺的间隔分成不同区间,60到65英尺一组, 60到70英尺一组,等等。我们希望每个区间的面积与其中的样本数量成比例。既然每个区间的宽度都一致,那么区间的高度自然与区间内样本数量成正比。当然,你还需要制定规则来决定如何处理位于两个区间交界处的数据。再举一个例子。格瑞萨姆学院最近调查了听众们的人口构成,其中一个问题关于年龄。直方图分成8个区间,18岁以下是一个区间,18岁到24岁是一个区间,从24岁开始每十岁为一区间,最后的区间是75岁以上。学院一共调查了545人,瓦莱利女士在上个圣诞节假期一边看电视一边将每个人的数据都输入进去。坐标纵轴表示每个年龄段有多少人。可见人数最多的群体是65岁到74岁,其次是55岁到64岁。

1893年11月23日,皮尔斯在课堂上提出了另一个重要统计学概念,也就是标准偏差。这个概念我待会再讲,其重要性不亚于直方图。

现在我们来讨论关于位置度与变异度的问题。首先我们来研究一下位置度。最广为人知的位置度衡量方式就是平均数,也就是将数据集里的所有样本相加,然后除以样本数量。比方说三个样本数分别是9,21和30,加在一起是60,再除以3,平均数就是20。我们的讲座题目是“平均数是否典型”,这里我要说“否”,待会我再说说“是”的情况。这个问题的答案未必总是肯定的。比方说如果算平均数的话,一个人的腿的平均数量肯定少于两条,因为世界上有不少人的腿的数量都少于两条,但是没有人多于两条。如果将总腿数除以总人数的话,平均数肯定。少于2。所以平均数并不一定意味着典型。此外极端数值也会在很大程度上影响平均数。比方说某家公司共有7个雇员,其中一个是CEO,年薪155000英镑,其他6个人分别是15000,20000,25000,30000,35000和40000英镑。要是你将这7个人的年收入除以7,平均工资是45000,高于除了CEO之外的所有人的工资,因此这个平均数并不特别典型。

尽管有这些不利之处,平均数依然具有某些非常有用的统计学特性。为了对抗数极端值的干扰,我们有时还会采用中位数。中位数的选取要让一半数据比它小,另一半数据比它大。还是用这家公司举例子。中位数是30000,因为有三个人的工资低于30000,还有三个人高于30000,这样更能体现这个组织的典型工资水平。但是如果工资最高的两名雇员接受了100000英磅的加薪,没加薪的四个员工的工资还是15000,20000,25000,30000,加薪后的两个员工变成了135000和140000,而且CEO依然是155000,那么中位数依然是30000。换句话说,中位数不容易受到绝对值的影响,而是完全取决于数值的相对位置。弗朗西斯.高尔顿比我表述得更到位:“关于平均值的知识是非常贫瘠的信息。”当然,用数据体现数据集的方式有很多,例如截尾均值,众数,最大值与最小值等等,但是这些方法都有各自的问题。

此外平均数经常遭到误解。请看下面这封公开信,刊登于1954年1月4日周一的《泰晤士报》:“您好,在12月31号那一期,您引用了B.S.莫里斯先生的说法,表示许多人都担心我国一半儿童的阅读能力低于平均水平。令人不安的类似事实还有很多,例如我国大约有一半的教堂尖顶低于平均高度,大约有一半煤矿低于平均产能,大约有一半新生儿低于平均体重。似乎唯一的解决方案就是废弃平均数定律。”我们注意到这位来信者用了好几个“大约。”如果这封信抱怨得是关于中位数的误解,信中本可以说“恰好一半”,而不是“大约一半”。

现在我们尝试通过测量差异来增强测量位置。最简单的方法是极差,也就是最大值减去最小值。比方说用我们刚才那家公司的工资最大值减去最小值是140000英镑,平均值依然是45000英镑。仅仅凭借这两条信息,你就足以推测这家公司有一个人工资很高,其他人远比此人更低。仅仅这两个数字就足够用了。如果我们将极差分割成不同区间的话,还能获得更多关于差异的信息。这样做的方法之一就是百分位数。所有小孩子的父母与祖父母都很清楚这种方法,因为百分位数表格出现在每一个英国儿童的健康记录里,描述了这名儿童的成长史。在一个数据集或者总体当中的第P百分位数意味着有%P的总体数值小于或等于给定数值。假设41是数据集当中的第80百分位数,那就意味着有80%的数字小于或等于41。中位数永远是第50百分位数。第25百分位数标志了数据集的第一个四分之一区间,第75百分位数则标志了第三个四分之一区间。所以我们认为有1/4的数据小于第25百分位数,有一半的数据小于中位数,有3/4的数据小于第75百分位数。这话说得基本正确,但是你在定义总体的时候一定要更小心一些,因为总体的数目未必是100的倍数。

我们来看几个例子。画面上这张图表显示的是36个月以下男婴的体重分布,数据来自2000年的美国男婴。每个年龄段都用百分位数标注了这个年龄段的男婴的体重分布,图表上的蓝色竖线表示了三个月大的男婴,可见接触蓝线底端的曲线代表第3百分位数,接触顶端的曲线代表第97百分位数,换句话说有3%的三个月男婴体重低于蓝线底端的数值,也有3%的男婴体重高于蓝线顶端的数值。再来看看十二个月男婴的体重分布——年龄沿横轴分布,体重按纵轴分布——这里的第3百分位数对应18英磅,第97百分位数对应28英磅。换句话说,94%的男婴体重位于18磅到28磅之间。再来看24个月的男婴,我们注意到蓝线随着年龄增加而越变越长,意味着体重分布越变越宽。

最后看看33个月的男婴,这个年龄的体重分布覆盖了九条黑横线,也就是九个百分位数。最低端是第3百分位数,最顶端是第97百分位数,其他加黑标注的百分位数包括第5、第10、第25、第50——即中位数、第75、第90以及第95百分位数。在33个月的时候,3%的男婴体重小于等于24英磅,男婴体重的中位数是30英磅,换句话说47%的男婴——也就是第3百分位数与中位数之间的男婴——的体重位于24英磅与30英磅之间。

接下来我们来看看这些数据可以怎样应用在某一个假想男婴身上。这个假想男婴在人生最初33个月各个时间点的体重用红点标注。第1个红点位于第25百分位数,接下来略低于25,然后又回归到25。在图表的剩余部分,假想男婴的体重始终位于第25百分位数与第50百分位数之间。由此我们可以大概理解这个孩子的发育情况。

最后一项数据可视化技术结合了我刚才介绍的手段,被称作箱形图。在坐标图当中画三条横线,中间那条代表数据集的中位数值,上面那条代表第75百分位数或者说第三四分位数的数值,下面那条代表第25百分位数或者说第一四分位数的数值,然后在这三条横线两侧画上竖直线,围成一个盒子。接下来以上横线为起点向上画一条竖线,其长度为上横线与中横线间距——或者说四分位间距——的1.5倍,同时以下横线为起点向下画一条竖直线,长度也是下横线与中横线间距的1.5倍。凡是位于盒子与上下竖线范围之外的极端样本数值都用星号表示——比方说公司CEO给自己开具的155000英镑年薪。箱型图非常有用,同时体现了中位数值,数据的分布范围,四分位数的距离以及异常值的存在。

再来看看另一些衡量数据分布与差异的方式。其中最关键的手段是皮尔森引入的标准差概念。我刚才已经介绍过了平均数。假设你的样本总量为X1,X2,X3……直到Xn——比方说公司里各人的工资——那么平均数就是把这些样本全都加起来然后除以n,平均数用希腊字母μ表示。假如你取平均值已经成了习惯,接下来的合理做法就是看看各个样本数值与平均数相差多少,而不考虑它比平均数更大还是更小,这就是衡量标准偏差。在统计学上这很难统计,因为偏差有正有负。更容易的做法是将所有的差值先乘方,这样无论观测结果比平均值更大还是更小,得出的结果都是正值。将所有这些乘方后的数值相加,然后除以n,最后再开方,就得到了标准差σ。如果你用英磅或者千克作为衡量标准,最后还要重新引入这些衡量单位。举个例子非常有用,在画面底部我用刚才的工资数据进行计算,平均数是45。用这个数字来计算标准差,结果是42.01。标准差对于正态分布非常重要,因为标准差可以告诉我们平均数的差异。请大家允许我待会讲正态分布的时候再来解释这种衡量差异范围的方式有多么重要。

接下来我们来讨论概率。首先来看什么是概率:扔硬币,买彩票,支付年金以及正态曲线都是概率的体现,正态曲线尤其是差异与概率的量度。我认为应当将概率视为试验与结果,概率论是用来衡量随机性事件的数学模型。我们将这些事件称作试验,并且计算其所有可能的结果,这些结果的总和就叫做样本空间,通常用希腊字母Ω来表示。我来举几个实验与样本空间的例子。试验扔硬币两次,样本空间是两次结果,可以是正反,可以是正正,也可以是反反,还可以是反正,就这四种可能。试验是不断扔硬币,试验结果是看要扔多少次才会出现第一个正面?样本空间全都是正整数。如果你第1次扔出正面结果就是一;如果是第一次扔了个反面,第2次正面结果就是2;如果前两次扔出反面,第三次是正面,那就是3,由此类推。这就是讨论概率的框架来思考。样本空间包括一系列结果,而试验则会给出这些结果。再看另外一个实验:衡量苏格兰士兵的胸部宽度。首先要找出一批苏格兰士兵,征得许可,然后去量每一个人的胸部。以英寸为单位,实验结果应当是在1~100的正整数,这是样本空间。

那么概率怎么算?我们要给样本空间的每一个因素赋予一个数字。我们在赋予数字时要假设硬币没有问题,投掷每次独立,换句说每一次样本空间的每一次结果都有相同的发生概率,因此正正、正反、反正、反反各有1/4的可能性。这样一来你就可以计算各种其他事件的可能性,比方说在这个样板空间我们可以计算每个个体事件,并且以此为依据计算出更加复杂的事件。比方说至少你想至少扔出一个正面,那就是正反、反正、正正这三种情况,3/4;扔两次结果一样,那就是正正、反反,1/2。尽管这个例子相对起来比较简单直接,但是我们还是能看出其中的思考过程怎样应用于更复杂的情况。再来看第二个实验:要扔多少次硬币才能出现一个正面?这个样本空间包括12345等等正整数。我们假设硬币没问题,投掷是独立的,那么第一次就扔出正面的概率是1/2,第二次扔出第一个正面的概率是1/4,第三次是1/8,以下分别是1/16,1/32,等等。

我们再来看看赢取彩票的问题。彩票票面有6个数字,一共有49个数字供你选择,最终得奖的6个数字出自随机挑选。从49个数字当中挑出6个数字有多少种方式?49×48×47×46×45×44种。比方说我们可以选择这样一组数字:19,17,31,11,41,2——我并没有说你买彩票的时候就应该选择这些数字。顺序并没有关系,这组数字作为实验结果等同于17,31,19,41,2,11,只是换一种排列而已。接下来为了确定这6个数字可能有多少种不同排列,我们需要计算6×5×4×3×2×1。于是不考虑排序地选择6个数字的可能方式共有(49×48×47×46×45×44)/(6×5×4×3×2×1)种,最终得出的结果略微小于1400万。所以选定某一套特定数字的中奖概率大约只有一千四百万分之一。如果你想放松一下的话还可以计算其他彩票玩法的中奖率,例如五个数字加一个额外球的中奖率大约是230万分之一,五主数的中奖率是55492分之一,四主数是1033分之一,三主数或者说六个数字当中选中三个的概率大约是1/57——依然不算很高,但是本来也轮不着我给大家提供理财建议。如果非要给的话就是下面这句:提升购买彩票胜算的唯一方法就是多买几张彩票。更有用的建议可能在于,如果你确实买彩票中奖,你或许还想将其他人也中奖的可能性最小化。很多人在选中奖选投注号码时都会使用自己的生日,所以你在选择投注号码时应当至少包括一个大于31的数。从心理学上来说你最好选择一套其他人全都不会选的数字。实际上确实有很多人会直接投注1,2,3,4,5,6。

不过我更喜欢接下来这个由诺贝尔奖得主恩里科.费米讲述的故事,描述了概率与巧合的作用。这个故事来自威廉.戴明为他写的传记《走出危机》:

“说到伟大将领的影响力与天才,有一个故事说恩里克.费米曾经问过莱斯利.理查德.格罗夫斯将军,有多少军事将领可以被冠以伟大之名?格罗夫斯认为一百个人当中能有两三个。费米又询问一名将领怎样才算得上伟大?格罗夫斯答道:‘任何将领只要能连续赢得五场大战,就可以被称为伟大。’当时正是二战期间。费米说:‘好吧,考虑到大多数战区与战场的对垒,两军胜算都差不多,那么一位将领打赢一场战斗的可能性是1/2,连续打赢两场的可能性是1/4,连续打赢三场是1/8,连续打赢四场是1/16,连续打赢五场是1/32。而1/32等于3/96。所以没错,每一百名将领当中确实有两三个人能实现这种战绩,但这是数学概率,并不是军事天才。’”

我们再来回到哈雷用来确定年金支付额度的寿命表格。假设我今年50岁,你想卖给我一份保险年金,我要找出恰当的购买价格。我一次性给你一大笔钱,而你则要在接下来我每年过生日的时候返还我一小笔钱。我要计算我应当给你多少钱才能让你同意付给我年金。我这里用一英镑来举个例子,假设我每年生日想要获取1000英镑年金的话,我只需要把购买价格乘以1000就可以了。我今年50岁,我们在表格上找到50,在一开始的1000人当中还有346人活着,51岁时成了335人。你要给我一英镑的概率等于我活到51岁的概率,也就是335/346,或者说我在51岁这一年实际能拿到335/346英镑;我活到52岁的概率是324/346;我活到53岁的概率是313/346。就这样我们可以根据表格一直推算到84岁。把每年拿到的年金数额加在一起是16英镑45便士,所以我应当给你16英镑45便士,这是我让你在我有生之年的每年生日提供一英镑年金的合理价格。乘以1000的话,我应该给你提供16450英磅。当然我这里忽视了通货膨胀,忽视了管理费用,忽视了你的盈利空间以及你可以通过我这笔钱获取的利息——不过按照目前更为现实的思考方式,我们都知道这笔钱存在哪里都拿不到什么利息。凭借表格你很容易进行这种计算。另一个可怕例子是为婴儿购买年金。按照表格,为1岁婴儿购买年金需要33英镑。而到了6岁的时候年金价格就变成了40磅,为6岁儿童购买年金反而要比为1岁儿童购买更贵,由此血淋淋地反映了儿童在1岁到6岁之间的高死亡率。

你或许还在想苏格兰士兵的问题。阿道夫.卡特雷(Adolphe Quetelet)是比利时统计局的主管。他是采用统计方法分析全国民调结果的第一人。他对于一般人统计结果的分析促使他最终整理了5732名苏格兰士兵的胸部宽度——其他种种爱好相比之下都显得无聊。最终卡特雷发现,根据高斯分布或者说正态分布,苏格兰士兵胸部宽度的中位数是40英寸。数学家一般使用正态分布这个词,物理学家则惯于称之为高斯分布,高挑的曲线造型则使得社会科学家一般将其称作钟形曲线。正态分布是概率与统计学当中最重要的分布,所以我来略微讨论一下,然后再来讨论中央极限定理。钟形曲线、正态分布曲线以及高斯分布曲线指得都是同一个中间高两边低的曲线形状,曲线下的面积是总体概率。曲线的中间值就是平均值μ,往左是μ减去一个标准差,往右是μ加上一个标准差。如果你想确定随机挑选的苏格兰士兵的胸部宽度位于某个区间之内的概率,那就是曲线在这两个值之间围成的面积。你选取的数值恰好位于比平均值高或者低一个标准差的区间之内的概率是34.1%。你选取的数值与平均值相差一个标准差的概率则是平均值左右各一个标准差围成的面积,也就是68.2%。请注意,如果你的数据选取到了向左三个标准差或向右三个标准差,那就覆盖了曲线下的绝大部分面积。换句话说,你的取值位于三个负标准差与三个正标准差之间的概率大约是99.6%。

标准差告诉了我们所能实现的测量的范围。接下来这部分内容非常重要——根据我教学生的经验,如果你希望他们记住什么东西,你最好说这部分内容并不重要,你们尽管可以忽略,结果他们就能记住了,所以接下来的内容并不非常重要——正态曲线之所以如此重要,并不因为它出现在很多自然测量当中。而是因为一旦我们计算样本的平均值,正态曲线就一定会出现。概率与统计学的最重要成果就是中央极限定理。我用扔骰子来表示,结果可以是1,2,3,4,5,6。如果骰子没有问题,那么这六种结果都有1/6的可能性。画在坐标系里就是垂直于横轴的六根直线,看着就像梳子一样,表示扔骰子这个实验的结果,看上去并不像正态分布。现在我连扔两次骰子,并且计算两次投掷点数的平均数。投出两个1,平均数就是1,投出两个6,平均数就是6。这样的结果分布是一座金字塔,中间的最高值是3.5,两头的极值分别是1和6。如果计算四次投掷的平均值,得出的分布图看上去就有点正态分布曲线的意思了。如果计算投掷十次的平均值,结果分布图与正态曲线简直一模一样。中央极限定理告诉我们,随着样本体量增加,样本平均值的分布会越来越逼近正态分布。但是实际上这条定理还告诉了至少三件事:首先,样本总体有平均值μ与标准差σ;其次,n个样本的平均值大致会遵循正态分布,而且n越大则分布越接近正态分布;与此同时平均数始终不变,但是标准差却显著下降,从原本的σ变成了σ除以n的平方根。

我们再看看刚才那个扔骰子的案例。扔骰子结果的平均值是3.5。只扔四次的时候,标准差是1.71。我们再看看扔十次的情况,中央极限定理告诉我们,扔十次时的标准差将不再是1.71,而是1.71除以10的平方根,结果是0.54。正态分布的标准差意味着什么?意味着如果你从总体均值向左取三个标准差,向右取三个标准差,基本就会覆盖曲线下方的全部面积。采用扔十次的标准差0.54乘以3即1.62,从平均值3.5出发向左向右各取这个值,向左能取到1.88,向右能取到5.12。所以绝大多数掷骰子结果的平均数应该处在这两个值之间。只要你们相信我没有对数据和曲线做手脚,那么我们就应该认同中央极限定理对于掷骰子十次的平均值结果的计算。关键取决于样本数量的平方根。

回到样本平均值的问题。“样本的平均值是否典型?”我这里要给出一个与刚才相反的回答:是的。样本平均值的差异可以通过正态分布来描述,比方说我们能以 99.6%的可能性自信地主张,某一批样本的平均值距离总体均值不超过三个标准差。这并不意味着从总体当中取样1000次这样的样本肯定会出现996次,但是长期来看肯定会出现得非常频繁。样本平均值在99.6%的时间里与总体均值之间的差距不会大于三个标准差,这就是中央极限定义的主张。四个关键点分别是样本平均值,一大部分时间,三个标准差的距离,以及总体均值。

接下来是我的论点的关键智识步骤:如果你距离我不到十米,那么我距离你也不到十米,同意吗?如果样本平均值距离总体均值不超过一定限度,反过来说就是总体均值距离样本平均值不超过一定限度。民意调查依靠得就是这个原理。假设要确定全社会投票支持某个党派的人们的比例,那么你可以随机选择一个样本,比方1050人。按照我们一路推导出来的方法,接下来你有95%的可能性可以确定这些人当中支持该党派的比例与全社会当中该党派支持者的占比相差不超过3%——我其实更喜欢选取1225人,因为1225的平方根是35,比较容易计算。假如样本是2500人,那我们就能以99.6%的可能性确定你的民调结果与实际结果相比相差3%。

如果我这里所说的内容还不足以让你在细节上理解其中的原理,那么我还举了一个计算样本大小的例子可以在讲座结束之后发送——咱们学院的员工领的不是工资,都是这些东西。我希望大家记住,只要从总体当中大量取样并计算平均数,那么样本平均数与总体均值之间的差异将会非常小。换句话说,平均值不仅会聚集,我们还能确定它们聚集得多么紧密。它们会按照正态曲线分布来聚集,我们则可以通过估计样本的标准差来确定它们聚集的紧密程度。

最后我用著名科学史学家史蒂芬.斯蒂格勒的名言来结束我的演讲:“从1700年到1900年这两个世纪之间,统计学经历了同时的水平与垂直发展。水平发展指的是统计方法在学科之间传播,从天文学到测绘学,再到心理学,再到生物学,再到社会科学,并且在这一过程中脱胎换骨;垂直方向上,我们对于概率的理解不断进步,一开始概率仅仅是机会游戏的模拟,后来测量的概率模型则逐渐上位……”我试图通过我所选择的实例彰显这两种趋势,并且在讲座结尾展现了借助概率的量化测量手段。希望我能借此让大家略微了解一下现代的统计技术……

通宝推:透明,
家园 统计的根本在于样本数量

统计是数学的一种应用分支。讲究的是以极小成本获得极大量的信息。所以抽样样本的数量和样本抽取方式是最重要的两个参数。

平均数的意义,因此在于样本数量的大小。如讲演者所举的工资的例子,即是一个很形象的说明。公司员工就那么几个,老板的收入极高,平均数在这里毫无意义。这是样本数量的问题。公司很多员工,工资样本抽取只从课长以上,那平均数还是无意义。这是样本抽取的方式问题。

说个应景的。最近有个自称大学教授的同学自己制作了一份西西河ID发帖时间的调查,说他的调查结果疑似英国特务进驻西西河。被数学严谨的几位同学打脸后,现抄作业,又得出一个摸棱两可的结论。其实他的这些做法表明他缺乏基本的统计知识。他不知道自己在干什么。通过上网时间的分析能够说明什么。

全看树展主题 · 分页首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河