五千年(敝帚自珍)

主题:【原创】直觉看,这不对啊。 -- spin

共:💬13 🌺51
全看分页树展 · 主题
家园 【原创】直觉看,这不对啊。

最近在观网上闲逛,看到一篇汪涛关于计划生育数据的小文,观点暂且不论,这个数据处理方式的解释违反常识,本人也不是测量学的专家,所以发在河里,大家讨论活跃一下气氛。

我转载他写的一段我们分析一下。

“4.来自测量学的说明

我们来以最严格的测量学知识说明这个问题。最准确的总和生育率测量会是一个以数学期望为中心的高斯分布。这样,有50%的机率实际的数据小于这个数学期望值,也有50%的机率大于这个值。

如果我们是要设定一个安全的余量,肯定不能设在中心的数学期望值上,因为那样的话就有50%的机率超越这个限度,这还得了?

假设我们要设定一个安全限度,使得实际值有很大概率小于这个限度,应该怎么办?这就需要采用上规范限策略。例如,以高于数学期望6个西格玛(6倍的均方差)设定这个偏差,就可以使实际值超过限度的概率小于百万分之3.4。这就是说,如果总和生育率的数学期望是1.4(很可能来自人口普查,但并非绝对),均方差值为0.05,那安全限度就会在1.7左右。这样就会存在0.3的固定偏高的差值。伪人口学家们注意到了这个偏差,其实所有人都知道,只是一般人不知道这个偏差的真实含义到底是什么。

问题只在于:我们究竟需要设定上规范限还是下规范限,设定多少,3个西格玛还是6个西格玛?这不取决于人口数据的测量方法本身,而是取决于人口总量与资源量的关系。相对来说,最接近实际的是人口普查的数据。但这个数据已经有了,如果要以它们为依据进行预测的话,只需要在电脑中输入需要查询或预测的条件,然后按回车键或用鼠标点击一下——OK,所有数据全有了。这根本不需要人口学家再做什么,也根本不需要那些伪人口学家做什么。人口学家的职责甚至使命,就是要考虑如果存在各种人口普查时未考虑到的因素影响,或存在偶然变化因素刺激的话,“最坏情况下”总和生育率数据最大会达到多少。因为过去中国根据预测的人口总量与资源量之间的关系为依据,确定了以控制人口总量不能超限为目标,采用的就是上规范限的策略。因此,这不是中国人口学界想偏高,而是中国决策者赋予他们的工作使命,是他们的职责要求他们必须要在这个历史阶段这么做。”

我看作者也认为计划生育率是一个大量样本的平均值,那么它的方差就应该随样本数量的开方而减小,以10亿人的样本为例,方差西格玛在10的负4次方量级,那么所谓的6个西格玛也基本等于零,不会对平均生育率的数值有任何影响。这种例子非常多,平均工资,平均汽车保有量,这些数据只要样本足够大,根本就不需要考虑所谓的方差。如果宣称“均方差值为0.05”,那只是说明得出数据所依据的样本数量在400个左岩。还有6西格玛,对应的几率应该是1-erf(6),基本上这个值就是零,而不是他宣称的百万分之3。4,我不知道测量学上需要取这么大的安全限度么。

全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河