五千年(敝帚自珍)

主题:【原创】经济学的经验研究方法 -- Dracula

共:💬86 🌺446
全看树展主题 · 分页首页 上页
/ 6
下页 末页
家园 不太明白你的意思。

selection bias是说选择产生的bias吧

一个数据本身自己修改自己,一个是研究主体的行为
是什么意思?

家园 现在最流行的是randomized experiment

尤其是在发展经济学里,我后面会提到。我还会提到natural experiment和regression discontinuity。但是这些这些方法适用范围也并不大。现实的经济学研究往往是你先发现好的instrument,或其他好的design,然后再找和其相关的经济学问题。reduced-form这种方法重于经济学问题的态度,也是structural派攻击的一个方面。

家园 奥运会和世界杯都是偶数年,其中奥运会影响更大。
家园 可能

randomized experiment的idea难找。

reduced-form过于现实,容易被攻击。

家园 【原创】Regression Discontinuity

Regression Discontinuity这个方法是在1960年被统计学家Thistlethwaite和Campbell发明的。到90年代末才开始被经济学家广泛使用。现在已经是reduced-form那一派工具箱里最常用的方法之一。

经济学里比较早使用Regression Discontinuity的是Wilbert Van der Klaauw 2002年International Economic Review的文章。凭直觉,如果大学(比如纽约大学)给予新生奖学金,这个新生选择纽约大学的可能性会大大增加。但是现实中,成绩好,能力高的学生更有可能获得纽约大学的奖学金,但是这样的学生也更可能获得其它大学比如康奈尔大学的奖学金,因此简单的回归分析可能会显示获得奖学金同学校选择无关,存在endogeneity的问题。解决这个问题理想方法是我们随机选择一批学生给予奖学金,然后观测他们的学校选择,可惜经济学家申请不下这么多研究经费。Van der Klaauw注意到纽约大学发出奖学金有个公式,加权计算学生的各项特征比如GPA,SAT,父母收入等等。如果按照这个公式计算出的分数大于320分,学生会获得奖学金,319分的就得不到。对于得分319分和320分的学生来说,他们各方面的平均特征应该是近乎相同的,因此只要其他大学不是使用同纽约大学完全相同的公式,这些学生被其他大学录取或获得奖学金的可能性也应该近乎相同。因此比较这两组学生的选择来得到奖学金对学生选择的影响,就解决了endogeneity的问题。换一个角度来说,学生的考试成绩比如SAT并不是完全是由学生的能力决定,是有噪音的,其他因素也类似,因此每个学生按照公式计算出来的分数也是有噪音的。319分和320分的学生各方面非常相似,320分的学生获得奖学金,主要可以看作是噪音的影响。因此这些噪音可以看作是自然在作的randomized experiment,将特征非常类似的人分为treatment组和control组。因此我们比较这两组的结果不同,就可以得到奖学金对学生选择的影响。Van der Klaauw的结果是奖学金增加10%,学生选择纽约大学的可能性增加8.6%。

就解决endogeneity的问题来说,我觉得regression discontinuity要比diff-in-diff和instrumental variable更有说服力,但是它也有一些局限性。就上面这个例子来说,这个研究的结果测量的其实是奖学金对320分左右学生学校选择的影响。这个结果对其他学生选择的适用度不是很明确。

再举两个例子。

Sandra Black研究的问题是一个好的公立学校对家长有多重要。换成经济学的术语来说是是hedonics,相对于一个差的公立学校来说,一个好的公立学校给家长增加的效用可以折算成多少钱。她的方法是利用地理上的discontinuity。假设有两个邻近的校区,一个校区的公立学校质量高,另一个质量低。那么在校区边界的非常类似的两座房子(同样的房间数,类似的面积等等),一座在校区A,一个在校区B,它们其他的环境因素应该也非常相似,比如犯罪率,买东西的方便程度等等。因此它们的主要差异就在于它们处于不同的校区,由此导致这两所房屋价格的不同。因此比较两座房子价格的差异,就可以给出好的公立学校给家长效用增加的金钱换算。Black使用马萨诸塞州的数据,结果是小学成绩增加5%,所在校区的房屋价格增加2.1%,在1999年的时候大致是4000美元。

Sandra Black的方法确实是非常巧妙,但是如果我们仔细考虑,她的方法有个隐含假设,就是说校区界线的划定完全是随机的。为了解决可能的边界endogeneity问题,如果校区边界是公园,高尔夫球场,河流等等,她就不使用这些数据。但是如果加上这些数据就得不到她的结果,为什么只删除这些数据,其他有可能导致边界endogeneous的数据为什么不擅出呢?因此有人觉得她的结果有data mining的嫌疑。

前面我已经解释了,简单的回归研究班级人数和学生成绩之间的关系有endogeneity的问题。一种解决办法是randomized experiment。1985年美国田纳西州花费1千2百万美元将7000名从幼儿园到小学3年级的学生随机分配到15个人或24个人的班级里,比较他们的成绩。实验结论是小班确实能够提高学生成绩。另一种解决方法就是regression discountinuity。Joshua Angrist和Victor Lavy注意到以色列小学的班级人数使用Maimonides’ Rule。如果学校一个年级的人数少于40人,那么就只有一个班,由一个老师来教。如果超过40人比如是41人,就分为两个班,每个班20或21 人。因此如果我们假设每年注册的学生数量是随机的话,在40,41 这个范围左右,班级人数的确定基本上也是随机的。这就像是自然在做的randomized experiment。如果我们比较年级40和41人学生的成绩,就可以得出班级人数对成绩的影响。他们的结果是班级人数减少10人,全班平均成绩增加0.75分(百分制)。

Angrist和Lavy的方法非常巧妙,但是它有一个隐含假设,就是39人40人的班级学生的家长不会选择转学到小班级的学校,比如私立学校。如果是这样的话,我们现实中观测到的39人,40人班级学生的家长对孩子教育不是太关心,或者财力不够。这样的话,40人和41人的学校的学生会有很大的不同。我们有新的endogeneity的问题,这个design和真正的randomized experiment还有差异。Miguel Urquiola AND Eric Verhoogen使用智利的数据发现有钱人倾向于把孩子送到班级小的学校。因此Angrist和Lavy的结果很可能高估了班级人数对学生成绩的影响。

元宝推荐:老马丁, 通宝推:响马,万里风中虎,
家园 Stephen Machin和OLIVIER MARIE

也在用这种方法研究教育和犯罪之间的关系以及学区房的价格,很有意思。

这一块可能是地理学和经济学的交叉处。

家园 大学ranking方面有相关研究吗?

hedonics在经济学上是什么含义?享乐主义?

家园 这方面研究的开创者是Sherwin Rosen

最早是在Industrial Organization研究方面。普通的经济学模型假设在同一个市场里的物品都是完全相同的。但是事实上这样的市场非常少。同一市场上的物品总会有很多差别。为了简化分析,Rosen假设我们真正的需求并不是每个具体的商品,而是商品的性质,比如电脑,真正进入我们效用函数的是CPU的主频,内存,显示器的大小等等。比如房屋,真正进入我们效用函数的是房屋面积,房间数量,洗手间数量,车库数量,花园面积,是否有游泳池等等。将价格同这些性质的回归,叫做hedonic regression。比如我们可以得到游泳池增加房屋的价值究竟有多大。分析得到的参数就是这些性质的价格,叫做hedonic price,也就是这些性质用钱来度量的效用。就具体这个例子来说,Sandra Black研究的结果是校区的教育质量用钱来度量增加的效用是多少。

Hedonic Regression还被用在环境经济学。可以用来研究空气污染减小的效用用钱来换算是多少。比如洛杉矶地区的某种污染物分布不均衡,我们可以用房地产价格差异来估计污染对效用影响的具体换算是多少。但是污染的分布很可能不是随机的,因此用回归的方法有endogeneity的问题,结果有bias。

经济学里大学排名的研究我没见过,对经济系或刊物排名的研究到不少,它们具体的方法我从来没注意过。你用econlit,或google scholar应该有不少结果。

家园 谢谢对hedonic的解释

分解以后可以解决heterogeneity的问题,尤其在降价很快的电脑上,非常聪明的方法。

大学ranking那个问题,我是想问,比如前20名大学,与21名,是否有regression discontinuity的研究?

对问题本身也有些犹豫,因为大学与义务教育不同在于,大学的选择范围广,研究侧重点可能不在这个方面。

家园 为什么两派的名字为

reduced-form and structural?

与instrumental variable的有效性检验有关系吗?

家园 关于regression discontinuity

最近的Journal of Economic Literature上有一篇文章。

Regression Discontinuity Designs in Economics

外链出处

里面有一个表,列着几乎所有使用regression discontinuity方法的文章。

家园 我也不是很清楚

我猜这个术语是来源于simultaneous equation估计里structural equation和reduced-form equation。不过同现在两派的区别也不是能很对应上。

家园 exactly.

structural est. is built on some theoretical equilibrium established beforehand. The equilibrium may be too complicated to solve.

Reduced form est. doesn't need theoretical structure, just like all Xs are exogenous in reduced-form equation. If reduced-from est. hits endogenous variable, you don't go back to model the stucture of target variable and endogenous variable, but to use techniques to correct the bias.

家园 关于公立学校价值的一个观察实例

相邻两个区,公立高中在全国排名,一个前一百,一个次一百,相同的房子,价格差10万。

家园 期待新作
全看树展主题 · 分页首页 上页
/ 6
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河