五千年(敝帚自珍)

主题:【原创】似乎发现了一个可以让统计方法为己所用方法 -- 艾蒳香

共:💬18 🌺37
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 【原创】似乎发现了一个可以让统计方法为己所用方法

    今天在《应用多元统计分析》里面看到了这样的一个例题:

    人的出汗多少与人体内钠和钾的含量有一定的关系。今测量了20名健康成年女性的出汗量(X1)、钠的含量(X2)和钾的含量(X3)。试检验H0:μ=μ0=(4,50,10)',H1:μ≠μ0(α=0.05)

    (数据略)

    这是一道非常简单的题目,所以今天并不是说题目本身,而是它最后的结果让我犯了嘀咕:

    如果假定X服从正态分布,那么可以计算得到p值为0.06493(只比最低限度α=0.05大了一点点),而犯第二类错误的概率为β=0.3616。以上结果的意思是说:如果认为原假设μ=μ0成立,那么检验统计量大于临界值的概率仍然“高达”0.06493,超过了显著水平α=0.05,所以我们认为这不是一个小概率事件,从而接受了原假设。但是另一方面,β=0.3616则表示如果原假设不成立,实际上μ与μ0根本就不相等,我们仍然接受原假设,误以为μ=μ0的概率则有0.3616(它是前面的0.06493的将近60倍!)。所以在这里我们认为0.06493是一个很大的概率,却对比它大将近60倍的0.3616视而不见;换句话说,这个假设检验表示我们冒着每做三次检验就会出一次错的风险,去选择相信一件概率只有0.06的事件的发生是完全正常的。

    这种现象的出现,与现行假设检验比较常用的基本原则:Neyman-Pearson原则是有很大关系的。这个原则要求人们在做假设检验时首先控制发生第一类错误的概率,在保证了第一类错误的概率较小的情况下才会考虑第二类错误——换句话说,就是宁肯去接受一个事实上不成立的假设,也坚决不能去拒绝一个正确的假设(夸张地说,这倒有点“宁肯放过一千,绝不错杀一个”的味道)。从上面的例子就可以看出,在Neyman-Pearson原则之下,原假设受到的保护有多么大。而这个Neyman-Pearson原则也仅仅只是一条人为的规定,相对于建造在定理体系上的估计方法来说,由于假设检验中类似的人为原则的加入,便使得假设检验变得仿佛不再是那么纯粹了。(即便是一条不显然的公理都会引起数学上的巨大纷争,更莫说一条纯粹的人为规定了。)

    当然,统计学本身并没有什么对与错之分,事实上,如果你愿意,也可以让α=49.9999,估计这样原假设被保护的再严,也是来一个消灭一个,甚至于说换用其他的更为复杂原则。但是统计学毕竟是要与实际结合的,由于现在许多统计应用中都以Neyman-Pearson原则为依据,这样有可能出现这样的问题:

    由于Neyman-Pearson原则对原假设保护周密,那么我们可以玩一个花样,把原来的原假设与备择假设换一个位置。举例来说,如果原来是要检验H0:μ≥μ0←→H1:μ<μ0,现在我们把它改成H0:μ≤μ0←→H1:μ>μ0。这样就会产生一个戏剧化的结果:对于同一组样本,不同的人采用不同的假设,就会得到截然相反的结果。套用到实际中,就有可能会出现这样的一种情况——

    甲和乙是两位社会学家,甲认为中国人过的比美国人幸福,而乙则坚持说美国人过得比中国人幸福。正好现在有人在中国人与美国人之中做了一个调查,最终搜集到了一些中国人和一些美国人对“你认为自己的生活幸福吗?”这个问题的回答,虽然样本量不是很大。甲和乙看到调查结果之后,觉得很高兴,于是赶紧动手对调查结果做了假设检验。由于两人的观点不同,所以他们做的假设正好相反,甲的假设是H0:中国人比美国人幸福;乙的假设则是H0:美国人比中国人幸福。由于调查的样本量不是很大,所以甲教授检验之后发现,没有证据表明中国人不比美国人幸福,所以接受原假设,认为中国人的确是比美国人幸福;而乙教授做了检验之后,发现也没有证据表明美国人不比中国人幸福,所以也接受了他的原假设,认为美国人比中国人幸福。于是两位教授各自写了一篇论文,引用了同样的调查结果,使用了同样的统计方法,却得到了截然相反的结论;至于究竟哪国人更幸福,最终还是取决于两位教授自己原本的立场。


    本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 最后一个例子的解释有问题

      在统计中,H0与H1的地位是不对等的。当数据能拒绝H0时,你好我好大家好,我们可以说我们有很强的证据支持H1否定H0;但是,反过来,如果数据无法拒绝H0时,我们却不能说数据支持H0否定H1。这是第一点。

      第二点是甲乙两位教授在使用假设检验时犯了同样的低级错误。例如甲认为中国人过的比美国人幸福,他/她如果想证明这一点,必须把“中国人过的比美国人幸福”设为H1,而不是H0。乙当然也是同样的错误。


      本帖一共被 1 帖 引用 (帖内工具实现)
    • 家园 科学和统计学的缺陷

      许多科学家不理解统计学,他们不懂统计学是因为统计没有意义,一位统计学家如是说道。 Sciencenews的一篇文章分析了统计学的缺陷和研究人员大规模误用统计学: 不管是变得更好还更糟,科学长久以来就和数学是一家。尤其是在伽利略和牛顿的时代,数学孕育出了科学。数学方法的严谨性保证了科学不背离事实,并确保了科学发现的可靠性。然而过去一个世纪,一门数学分支偏离了科学之心,从确定性的计算转向了概率性的计算。科学迷上了统计学,它与拉斯维加斯赌场保证利润的数学原理完全一样。类似的,正确使用统计学能让科学结果万无一失。但在实际中,广泛的滥用统计学让科学变得更像是夸夸其谈。这是科学中“最肮脏的秘密”,依靠统计分析测试假说的“科学方法”是站在摇摇欲坠的根基上。统计检定本应该让科学家去判断实验结果是反映出真实的现象还是一次随机的意外。然而统计学中不同标准之间有着不一致的理念,无法提供有意义的科学判断根据。这种现象导致结果是科学文献中无数的结论是错误的,医疗风险或治疗测试往往是矛盾而混乱的。

    • 家园 楼主文末举的例子我原来看到过

      那本书中提到,人类的幸福感这类话题属于社会伦理,用科学研究的取样分析和调查研究是得不出结论的.

      这是不是说明统计学的应用范围实际上是有其局限性的(因为在某些领域的应用无意义)?

    • 家园 我想能够实用就可以!
    • 家园 嗯,小赵河友已经说得很好了~

      实际操作中会选择控制哪类错误的。比如医生尽管知道化验结果不是100%准确,也会先提患病的信息,因为他们需要对病人负责。这时候就是“宁肯错杀一千,决不放过一个”了。

      普罗大众们比较缺乏统计学基础,所以难免被生活中一些机构或者一些看似相当合理的具有逻辑性质的信息所误导。

    • 家园 楼主可是某一小众论坛上的同名ID拥有者?

      看到这个ID觉得怪眼熟的,上那边一翻果然一样,呵呵。

    • 家园 呵呵,俺正在给本科生教心理学中的统计方法

      也许能够回答你的问题。

      (1)在我的课上,我一般把1类错误叫“虚警(false alarm)”,一个比喻是一个病人本来没有大病,但作为医生,你错误的诊断说这个病人有癌症,把他吓了一大跳,这时你犯了一类错误。

      而二类错误可以叫做“错过(missing)”一个比喻是一个病人本来有癌症,但作为医生,你错误的诊断说这个病人没事,把他打发回家,这时你错过了拯救这个病人的机会,你犯了二类错误。

      你对的1类错误和二类错误的理解很对,它们发生的概率之间有一个跷跷板的关系。alpha 越大, beta就越小, 反之亦然。

      但在行为实验中,科学家往往是希望发生一类错误的概率是越小越好,因为科学是严谨的需要小心求证。大多数科学家宁愿“错过”一个可能“显著”的发现,也不愿“虚报”一个实际上不存在的发现。

      而在另外一些情况中,情况就不同了。比如医生,也许他们better safe than sorry, 宁愿吓病人一跳,也不愿错过拯救病人生命的机会。

      所以,要具体情况具体分析,一般在科学研究中,大家都希望发生一类错误的概率越小越好。

      (2)我觉得你举的中美两国例子中的零假设(Null Hypothesis)有问题。 在统计检验中,一般零假设是要和一个具体的数值(比如100)联系起来的,(H0: μ= 100),这样你的假设检验就是用你的观察值和一个固定的以100为中心的正态分布比较。零假设不应该和许多数值联系起来。H0: μ< 100是错误的。因为如果这样,就会有无穷多个正态分布,你的观察值到底应当和那一个比呢?

      正确的零假设应当是美国人和中国人的幸福感之差是0.

      所以,你的问题的正确表达应当是,

      甲教授认为美国人比中国人幸福感强,他的零假设是μ美国人 - μ中国人 = 0,他的研究假设是 μ美国人 - μ中国人 > 0

      乙教授认为美国人比中国人幸福感低,他的零假设是μ美国人 - μ中国人 = 0,他的研究假设是 μ美国人 - μ中国人 < 0

      这是一个independent samples one-tailed t-test,甲和乙的test是一样的。

      这是我的理解,也许不对,你还可以问问河友老马丁,他也教统计。


      本帖一共被 1 帖 引用 (帖内工具实现)
      • 家园 独立分布单边t检验?

        嗯……其实如果原假设是μ1>μ2或者说μ2>μ1应该也是可以通过似然比检验进行检验的,而且检验统计量的形式与H0:μ1=μ2的形式是相同的,只是拒绝域发生了变化吧……

        不过不管怎么说,检验时假设的选择看起来真的大有学问。多谢您的意见了……

        其实我自己是学数学的,接触统计学也才有一年而已,对实际中许多统计的运用说实话其实不了解,今天只是看书时突然想到,在实际应用中,研究者或许有可能通过操作原假设的方法来得到自己想要的结果,倒是不知道是不是有人真的会去这么做……

        • 家园 我也不知道中文该叫什么。

          我原来学物理的,出国后才学的统计检验,所以对中文术语不是很清楚。

          关于原假设的问题,我总是觉得与一个固定的值相比较比与一系列的值相比较更易于理解。给我课上的学生讲起来,也更好解释一些。也许错了,呵呵。

      • 家园 做差是个好思路
    • 家园 你描述的N-P原则不对呢

      当你有先验概率的时候,N-P原则是将你的先验概率作为常数约束来进行统计检验的,也就是你的例子,最开始的约束项就不同了。

      而如果你要站在客观的分析的话,目标是使总体的平均误判概率最小或总体的平均损失最小,这样两个原假设算出来的结果肯定不一样。

      • 家园 谢谢,把原文修改了一下

        不过我觉得NP原则似乎的确就是首先限制第一类错误,然后再控制第二类错误,至于平均误判概率之类的,确实效果要好的多,但是似乎那就不是NP原则的内容了……

        不管怎么说,还是谢谢,送花~

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河