五千年(敝帚自珍)

主题:【原创】问个问题,统计中自由度为什么要减一? -- baiqi

共:💬32 🌺30 新:
分页树展主题 · 全看 下页
  • 家园 【原创】问个问题,统计中自由度为什么要减一?

    自由度为什么要减一啊?

    1.统计的自由度为什么要减一

    可不可以科学地解释解释。

    一个量除以自由度到底是什么含义,要消除什么,要统一什么,得到的量对应什么,是要为回答什么问题作准备。

    2.我去查了chi-square table,网上各个table的内容都不一样(用google 图片搜索前面两个关键字),为什么会不一样的?

    • 家园 十几年过去才明白

      以前也是简单的认为就是样本自由度减一是因为数据不完全彼此独立,但楼下tint河友提到这是无偏估计,一直没有仔细看。去年才知道减不减1还涉及到评价标准问题。

      减1对应无偏估计,如果需要无偏就减1。

      不减对应的是最大似然估计。

      当然不知道这个也不影响使用:小样本量里通常都需要无偏估计,大样本量时可以选择最大似然估计。

    • 家园 自由度实际上是样本数N减去自变量个数K。

      因为回归实际上是一个N个K元线性方程组。所以残差是N个随机变量受到K个约束条件。应该是N-K。

      也可以考虑特殊情况假设N=K,回归就退化成线性方程组,有唯一解。自由度就是0.

      当然懂点矩阵代数,一算就明白了,因为投影矩阵的秩是N-K。

    • 家园 chi-square table的内容一致

      都是根据自由度(df)和尾概率(tail probability,有的表上用p-value表示,实际不太确切)决定chisquare-检验的关键值(critical value)。要学会读表。

      自由度的概念和t-变量的定义里分母项有关。分母中有一个是误差项(error term)的方差(variance)的估计。如果这个方差的估计是用(其实是相当于)多少个独立标准状态变量平方的均值算出来的,则这个t-变量的自由度就是多少。线性回归计算中,自由度恰好是样本数减去模型中系统部分(systematic part)中的参数个数(=自由变量的个数+1,这里1是指那个常数项参数)。

    • 家园 你的问题比较含糊

      大概有两种情况

      1)计算某统计量时,样本中独立数据的个数即为某统计量的自由度。

      如方差,有n个数据,只要n-1个离差平方和确定了,方差就确定了(平均值是限制条件)。自由度就是n-1。

      2)使用某模型,能自由取值的自变量的个数就是自由度。

      如回归模型,要估算n个参数,其中有n-1个能自由取值的自变量(因为截距自变量是常量),自由度就是n-1。

      关于chi-square表,我看都是一样的。

      • 家园 比如说方差

        直观看起来除以n更合适,除以n-1,结果肯定与除以n是不同的,那么除以n-1更正确在哪?我硬是要除以n,然后把得出的结果称作是方差,会有什么后果?

        • 家园 把案例推到极限就明白了

          如果只有一个样本,则样本均值与样本值相同,于是总误差为0,如果你除以n,那么结论是方差为0,这显然不对。如果除以n-1,即0/0,这个根据数学定义,可以是任意值,虽然我们目前(由于数据不足)不知道,但至少在数学上是没问题的。而除以n就不行了,得不出数学上自洽的结论。

          从另一个角度考虑,n个样本,要估计样本与均值之间的偏差,究竟可以有几个自由度呢?显然,n个样本有n个自由度。表面看起来,这样可以估计出n个偏差。但是不要忘记,均值本身是需要从样本估计的。因此,均值本身是一个自由度。这样,n个自由度扣除均值的一个自由度,就只能估计出n-1个偏差。因此,除以n所估计的方差将会比实际的小。

        • 家园 这个教科书上有解释,当然,大样本好些
        • 家园 我记忆中

          总体方差就是除以n,而样本方差(即一个统计量,用以估算总体方差)是除以n-1。当然,实际两者都是要除以自由度,但两种情况,其自由度是不同的。

          计算样本方差,除以n-1是一种无偏估计,除以n是有偏估计。

          我不是专业搞这个的,只知道这么多。

          • 家园 顺便再问一个问题

            在回归参数的t检验中

            我们假设b=0,然后通过t检验得出假设不成立。

            于是回归模型的因变量与自变量之间存在线性关系。

            我觉得b不等于0,与“回归模型的因变量与变量之间存在线性关系”好像并不能等价。

            因为,我们首先是假设了该模型是线性回归模型,但是可能模型根本不是线性的,而是二次方的,比如说 y=bx^2+u

            证明了b不等于0,也不能得出其是线性关系的。

            不知我表达得明不明白?

            • 家园 不是用t检验吧

              是用F检验。

              F检验是检测线性关系的显著性,而t检验是检测某系数的显著性。

              • 家园 F检验线性关系的显著性又如何理解呢

                点看全图

                外链图片需谨慎,可能会被源头改

                F检验的假设同样是:b=0,然后通过否定这个假设而达到证明存在线性关系的目的。

                然而b<>0,也不能说明它们就是线性关系,首先要否定它们不是二次方关系或其它非线性关系才对啊?

                • 家园 对于一个解释变量,F=t
                • 家园 你的理解不太对

                  二次方,平方根等仍旧是线性关系,用F检验可以检测出。

                  比如,x和y是存在y=a+bx^2的关系,那么F检验检测y=a+bx^2的p-value会非常小(比如<0.0001),而F检验检测y=a+bx的p-value会相对大(比如0.02)。

                  至于最后建立方程的时候,是y=a+bx还是y=a+bx^2,要通过其他一些手段和你的经验。

                  • 家园 二次方,平方根等仍旧是线性关系?

                    这一点我还真不知道,不知哪本书有提到,我参详参详,谢谢!

分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河