五千年(敝帚自珍)

主题:【原创】问个问题,统计中自由度为什么要减一? -- baiqi

共:💬32 🌺30 新:
全看树展主题 · 分页 上页 下页
家园 错误,错误

说错了,线性是一次关系。

我想说的是回归关系

平方,平方根等都可以转化为一次的变量,仍旧可以用线性模型来分析。

家园 可是你仍然没有解决这个问题

就是说如何判定它一定是线性模型,而不是其他模型。

家园 我不是专业人士

如果是我碰到类似问题,我会先做个图,大概判断一下可能是什么关系,再套模型。

你如果真有心要解决这个问题,应该去一些数学,统计的专业论坛问问。

家园 谢谢!

我在想是不是大前提就是规定了它们就是线性关系,F检验的目的仅仅是确定系数b不为0.而这个大前提,无疑是人为规定的。

不知有什么好的专业论坛推荐?

家园 个人认为可以这么解释

简单的说,样本方差计算公式中参与求和的n项的每一项为(xi-mean(x))^2,但是所有的n项(xi-mean(x))的和等于0,这就多了一个约束,所以说n项(xi-mean(x))并不是独立的,它们的自由度应该少一个也就是n-1。

家园 是的,和虎大意思一样.

知道任何n-1项(xi-mean(x)),并且所有的n项(xi-mean(x))的和等于0,所以剩下的那个(xi-mean(x))就知道了.也就是说(xi-mean(x))只有n-1个是独立的.

家园 有一事不明

多元线性回归方程显著性的F检验是不是只能检验拟合程度?如果我要检验我的多元线性模型到底适不适用(可能二次方模型更加适用),那么要检验这个适不适用应该使用什么检验?

家园 请教请教

多元线性回归方程显著性的F检验是不是只能检验拟合程度?如果我要检验我的多元线性模型到底适不适用(可能二次方模型更加适用),那么要检验这个适不适用应该使用什么检验?

家园 请教!

多元线性回归方程显著性的F检验是不是只能检验拟合程度?如果我要检验我的多元线性模型到底适不适用(可能二次方模型更加适用),那么要检验这个适不适用应该使用什么检验?

家园 我不是学统计的,所以也不太清楚。

不太明白你说的“拟合程度”的具体含义。翻了一下书,发现显著性检验里涉及到的回归方程检验(即所有系数都归零)、回归系数显著性检验(某些系数为零)还有异常点检验(是否某个系数非随机漂移)这三种都用到了F检验。

第二个问题,你的意思是不是在最小二乘估计、岭估计、主成分估计或者其他估计中最好的是哪个?我不知道有哪个检验可以直接做,你可以把这些估计都做出来自己比较看看。

希望对你有帮助,最好还是借本书好好学一下。有什么问题再讨论。

家园 不好意思没用中文学过计量,有点看不太懂

我猜你的意思是说非线性的模型是否比线性的更好。这可以通过简单的R2来看是否显著上升(当然也不一定,因为你多了一个或几个解释变量),也可以看二次方项的系数T检验是否显著。但是如果你要检验整个模型在线性和非线性的条件下那个更优,可以用阶梯式的F检验。

Hübler 2009年有篇文章:

The nonlinear link between height and wages in Germany, 1985–2004

Economics & Human Biology

Volume 7, Issue 2, July 2009, Pages 191-199

Olaf Hübler

就是用F检验来一次,二次还是三次更显著, 你可以看一下,用STATA等软件很简单就可以做。

Table 1

Estimates of height coefficients – dependent variable: log wages per hour.

Note: The standard errors in parentheses are estimated by the cluster approach, which takes into account intragroup correlation, but the observations are

independent across groups (individuals). Wages per hour are measured in real terms and euros. Control variables in specifications (1)–(5): SCHOOLING,

TENURE, TENURE2, EXPERIENCE (actual experience), EXPERIENCE2, NBULA (dummy; =1, if new German federal state (Bundesland)), 20 TIME DUMMIES (for 1985–2004).

F tests of joint significance of the height variables (H0: height effects onwages are zero;H1: height effects are linear (columns (1) and (2)), of third order (columns (3) and (4)) or of second-order (column (5)) are presented in the last but two line (F_1), and the F tests of nonlinear height effects (H0: height effects on wages are linear;H1:height effects are of third-order (columns (3) and (4)) or of second-order (column(5)) are presented inthepenultimate line (F_2).

F_3 presents the F test statistic where the second-order approach (H0) is tested against the third-order approach (H1). Source: GSOEP 1985–2004.

*Significance at the 0.10 level.

** Significance at the 0.05 level.

*** Significance at the 0.01 level.

不过我更推荐用SEEMINGLY UNRELATED ESTIMATION中的CH2检验更好些,可以允许两个方程的残差相关。好像是乌特勒支大学的一个人1999年在STATA BULLINTIN 中有篇相关的文章,你可以去查一下。

家园 这个教科书上有解释,当然,大样本好些
家园 对于一个解释变量,F=t
家园 不是这样的,

非线性的方程可以通过TAYLOR展开式然后用LOG转换成线性的回归,比如说Cobb–Douglas生产函数可以直接转化成Translog方程,应用极为广泛。

而且LOG形式后的解释变量的回归系数有明确的经济含义,就是弹性系数,符合科学简单,普遍和美的原则,几乎遍布运用到经济学的所有研究领域中。而LOG的变换后,变量在一定的变化范围内可以近似认为就是增长率,所以我以前说过dln=t%,而TFP就是总的增长率中没有被投入增长率解释的部分,本身也是个增长率,我的话就是从这里来的。

不是说非线性不好,而是如果可以简单的方法有现实含义的方法去解释现实问题,为何要用复杂的没有现实意义的方法呢?

这不是反而把问题复杂化了吗?我们研究统计问题主要是寻求因果关系,最少是相关关系,不是为了展示复杂的方程形式。其实,越简单的方程形式越好,E=MC2就最好。好的计量经济学家就只用简单方法解决复杂问题。我认识的高手们好多就只用OLS,但是他能用OLS稍微一变,或者分成两三步,就解决你所有的问题,而且还有经济学社会学心理学或政治学的实际意义,简单,普遍,美。

好多人在这些简单问题上不懂,骂我骂了几年。我看过他们的帖子,都没有受过基本训练,也没有基本概念,讨论没有意义。现在借机会说明一下。

家园 把案例推到极限就明白了

如果只有一个样本,则样本均值与样本值相同,于是总误差为0,如果你除以n,那么结论是方差为0,这显然不对。如果除以n-1,即0/0,这个根据数学定义,可以是任意值,虽然我们目前(由于数据不足)不知道,但至少在数学上是没问题的。而除以n就不行了,得不出数学上自洽的结论。

从另一个角度考虑,n个样本,要估计样本与均值之间的偏差,究竟可以有几个自由度呢?显然,n个样本有n个自由度。表面看起来,这样可以估计出n个偏差。但是不要忘记,均值本身是需要从样本估计的。因此,均值本身是一个自由度。这样,n个自由度扣除均值的一个自由度,就只能估计出n-1个偏差。因此,除以n所估计的方差将会比实际的小。

全看树展主题 · 分页 上页 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河