⼯具变量法(⼆):弱⼯具变量
世上没有完美的计量⽅法,因为所有的计量⽅法与模型均依赖于⼀定的前提假设。因此,在估计完计量模型后,通常需要对模型的前提假设进⾏检验,称为 “诊断性检验”(diagnosticchecking)或 “模型检验”(model checking)。
⼯具变量法也不例外。⼯具变量法的成⽴依赖于有效的⼯具变量(valid instruments),即所使⽤的⼯具变量须满⾜相关性(与内⽣解释变量相关)与外⽣性(与扰动项不相关)。
⼯具变量的相关性(Instrument Relevance)
在⼤样本下,2SLS为⼀致估计。但对于⼤多数实践中的有限样本(finite sample),2SLS估计量依然存在偏差(bias),并不以真实参数 为其分布的中⼼,即
⽽且,如果⼯具变量与内⽣变量的相关性较弱,则 2SLS 的偏差会变得更为严重。直观来看,2SLS 的基本思想是通过外⽣的⼯具变量,从内⽣变量中分离出⼀部分外⽣变动(exogenous variations),以获得⼀致估计。
如果⼯具变量与内⽣变量的相关性很弱,则通过⼯具变量分离出的内⽣变量之外⽣变动仅包含很少的信息。因此,利⽤这些少量信息进⾏的⼯具变量法估计就不准确,即使样本容量很⼤也很难收敛到真实的参数值。这种⼯具变量称为 “弱⼯具变量”(weak instruments)。
弱⼯具变量的后果
弱⼯具变量的后果类似于样本容量过⼩,会导致 2SLS 的⼩样本性质变得很差,⽽ 2SLS 的⼤样本分布也可能离正态分布相去甚远,致使基于⼤样本理论的统计推断失效。
下⾯通过蒙特卡洛模拟(Monte Carlo simulation)来直观地考察弱⼯具变量的后果。考虑最简单的⼀元回归模型,假设其数据⽣成过程(data generating process)为:
其中, 为内⽣变量,与扰动项 相关;⽽ 的真实系数为 2。假设样本容量为10,000,并使⽤⼯具变量 进⾏ 2SLS 回归。进⼀步,假设⼯具变量 与扰动项 均服从标准正态分布,且相互独⽴。
作为对⽐,⾸先考虑⼯具变量较强的情形。假设内⽣变量 的⽣成过程为:
其中, 为除 与 之外,影响 的其他因素。假设 也服从标准正态分布,且独⽴于 与 。显然,内⽣变量 与⼯具变量 及扰动项 都相关。由于⼯具变量 在内⽣变量 的⽣成过程中起了重要作⽤,故为强⼯具变量(可计算 与 的相关系数来验证,从略)。
下⾯,在 Stata 中实现蒙特卡洛模拟,进⾏ 1000 次随机抽样,得到 1000 个2SLS 估计值,然⽽直观地看 2SLS 估计量的⼤样本分布,可输⼊如下程序(建议写为 do ⽂件)。
* 如果已有名为 “sim_2sls” 的程序,则去掉;反之,不执⾏下⼀⾏语句
capture program drop sim_2sls
* 定义称为 “sim_2sls” 的程序
program sim_2sls, rclass
* 删除内存中的所有数据
drop _all
* 设定样本容量为10,000
set obs 10000
* ⽣成服从标准正态的扰动项 u
gen u = rnormal()
* ⽣成服从标准正态的⼯具变量 z,且与扰动项 u 不相关
gen z = rnormal()
* ⽣成服从标准正态的随机变量 v
gen v = rnormal()
* ⽣成内⽣变量 x,与⼯具变量 z 及扰动项 u 都相关
gen x = 0.5*z + 0.2*u + 0.1*v
* ⽣成被解释变量 y,其中 x 的真实系数为 2
gen y = 1 + 2*x + u
* 以 z 为⼯具变量,将 y 对 x 进⾏ 2SLS 估计
ivregress 2sls y (x = z)
* 记 x 的估计系数为 b
return scalar b=_b[x]
* 程序 “sim_2SLS” 结束
end
* 运⾏程序 “sim_2SLS” 1000 遍,得到 1000 个 2SLS 估计值 b
simulate beta = r(b), seed(10101) reps(1000): sim_2sls
* 画这 1000 个 2SLS 估计值 b 的核密度图(相当于光滑的直⽅图)
kdensity beta, xline(2) normal normopts(lp(dash))
运⾏以上程序,可得下图:
从上图可知,在强⼯具变量的情况下,2SLS 估计量以真实参数值 2 为中⼼,近似于对称的正态分布(上图虚线),故可使⽤其渐近正态分布进⾏⼤样本统计推断。
下⾯考察弱⼯具变量的情形,将内⽣变量 的⽣成过程改为:
从上式可知,内⽣变量 与⼯具变量 的相关性⼤⼤减弱。重新运⾏以上程序,但将其中的命令 “gen x = 0.5*z + 0.2*u + 0.1*v ” 改为
gen x = 0.01*z + 0.2*u + 0.1*v
可得 2SLS 估计量的⼤样本分布如下图。
从上图可知,尽管样本容量已为 10,000(堪称⼤样本),但 2SLS 估计量依然有偏差(并未以真实参数 2 为中⼼),⽽且是左偏的⾮对称分布,与正态分布(上图虚线)有明显差别。因此,⽆法使⽤通常的渐近正态分布进⾏⼤样本统计推断。
弱⼯具变量的检验
在2SLS的第⼀阶段回归中,将内⽣变量对所有外⽣变量(含⼯具变量与外⽣解释变量)进⾏回归,故已包含⼯具变量强弱的信息。如果所有⼯具变量在第⼀阶段回归中联合显著,则意味着⼯具变量与内⽣变量较为相关,故⼯具变量较强;反之,则可能存在弱⼯具变量。
举例来说,假设回归⽅程为
其中, 为内⽣变量,⽽ 为外⽣变量。⽅程外的⼯具变量为 与 ,则第⼀阶段回归为
对原假设 进⾏联合检验,可得 F 统计量。显然,F 统计量越⼩,则越可能存在弱⼯具变量。但F 统计量究竟多⼤才不⽤担⼼弱⼯具变量?
正如⼈的胖瘦为连续变化,⼯具变量的强弱也是连续变化,故需要⼈为制定⼀个标准来界定弱⼯具变量。⽬前通⾏的标准为,如果 2SLS 估计量的偏差仅为 OLS 估计量偏差的10%或更⼩,则为强⼯具变量;反之,则为弱⼯具变量。
可以证明,2SLS 与 OLS 估计量的偏差近似地满⾜以下关系(参见 Stock and Watson,2012,第506页):
其中, 为 2SLS 估计量的偏差, 为 OLS 估计量的偏差,⽽ F 为上⽂第⼀阶段回归的 F 统计量。由于技术性原因,此 F 统计量使⽤普通标准误,⽽⾮(异⽅差)稳健标准误。
显然,如果 F 统计量趋向⽆穷⼤,则 2SLS 估计量的偏差将消失;但现实样本中的 F 统计量⼀般并不⼤。容易看出,如果 F 统计量等于10,则可⼤致保证 2SLS 偏差仅为 OLS 偏差的10%。因此,检验弱⼯具变量的⼀个经验规则(rule of thumb)就是第⼀阶段回归的 F 统计量应⼤于或等于10。
解决弱⼯具变量的⽅法
如果发现存在弱⼯具变量,则可能的解决⽅法包括:
(1) 寻找更强的⼯具变量。
(2) 使⽤对弱⼯具变量更不敏感的 “有限信息最⼤似然估计法” (Limited Information MaximumLikelihood Estimation,简记 LIML)。在⼤样本下,LIML 与 2SLS 渐近等价,但在弱⼯具变量的情况下,LIML 的⼩样本性质⼀般优于 2SLS。
(3) 如果有较多⼯具变量,可舍弃弱⼯具变量,因为多余的弱⼯具变量反⽽会降低第⼀阶段回归的 F 统计量。
2SLS 的 Stata 命令
2SLS 的 Stata 命令为
ivregress 2sls depvar [varlist1] (varlist2 = instlist)
其中,“depvar” 为被解释变量,“varlist1” 为外⽣解释变量,“varlist2” 为内⽣解释变量,⽽“instlist” 为⼯具变量。⽐如,针对上⽂的例⼦,相应的Stata命令为
ivregress 2sls y w (x = z1 z2), r first
其中,选择项 “r” 表⽰使⽤异⽅差稳健的标准误(默认使⽤普通标准误),选择项 “first” 表⽰显⽰第⼀阶段回归的结果。
完成 2SLS 估计之后,检验弱⼯具变量的Stata命令为estat firststage
该命令将显⽰与弱⼯具变量有关的第⼀个阶段回归统计量及临界值。类似地,LIML 的 Stata 命令为
ivregress liml depvar [varlist 1] (varlist2 = instlist)
经典案例:出⽣季度是否为弱⼯具变量
劳动经济学的⼀个核⼼问题是研究教育投资的回报率,⽐如估计如下⽅程:
其中,被解释变量为⼯资对数(lnwage),关键解释变量为教育年限(educ),⽽向量 z 为其它控制变量(⽐如种族、婚否、是否住⼤城市、地域虚拟变量、出⽣年份虚拟变量、年龄、年龄平⽅等)。扰动项 包括影响⼯资的其它因素,⽐如不可观测的个体能⼒,⽽个体能⼒可能与教育年限相关,导致 OLS 不⼀致。
为此,Angrist and Krueger (1991) 使⽤1960、1970与1980年已部分公开的美国⼈⼝普查数据(Public Use Census Data),并开创性地将出⽣季度(quarter of birth)作为教育年限的⼯具变量。
由于美国多数州的法律强制要求青少年在满16岁⽣⽇之前必须在校上学(compulsory schoolinglaws),⽽⼜要求⼉童在⼊学那年的1⽉1⽇须满6周岁,这导致年初出⽣的⼉童在⼊学时年龄⽐年末出⽣的⼉童更⼤。因此,相⽐年末出⽣的学⽣,年初出⽣的学⽣在其受教育过程中,更早就达到了法定退学年龄(legal dropout age),这使得第1季度出⽣者所受教育平均⽽⾔低于第4季度出⽣者,参见下图。
因此,出⽣季度与教育年限相关,满⾜相关性;另⼀⽅⾯,出⽣季度不太可能通过其他渠道影响⼯资,故满⾜外⽣性。
为此,以第4季度为参照系,可使⽤第1季度、第2季度与第3季度的出⽣季度虚拟变量作为⼯具变量。考虑到季度效应在不同年份可能不同(参见上图),Angrist and Krueger (1991) 实际上使⽤ “出⽣年度虚拟变量”(year-of-birth dummies)与 “出⽣季度虚拟变量”(quarter-of-birthdummies)的交互项作为⼯具变量。
Angrist and Krueger (1991) 所使⽤的数据集 NEW7080.dta 与相关 do ⽂件可从以下⽹址下载(或点击页⾯底部的 “阅读原⽂”):
作为⽰例,下⾯复制该⽂表 V 第 7 列 OLS 与第 8 列 2SLS 的回归结果(使⽤1980年的部分⼈⼝普查数据)。
. use NEW7080.dta, clear
运⾏作者提供的 do ⽂件 “QOB Table V.do”,将变量重新命名,并⽣成出⽣年度虚拟变量、出⽣
季度虚拟变量,及其交互项(过程从略)。
先进⾏表 V 第 7 列的 OLS 回归:
. reg LWKLYWGE EDUC RACE MARRIED SMSA NEWENG MIDATL ENOCENT WNOCENTSOATL ESOCENT WSOCENT MT YR20-YR28 AGEQ AGEQSQ
其中,LWKLYWGE为每周⼯资对数(log weekly wage),EDUC为教育年限,⽽其余变量为控制变量。
从以上结果可知,教育投资回报率为 6.3%(且在 1% ⽔平上显著),即每多受⼀年教育,则⼯资增加 6.3%。样本容量⾼达 329,509。但 OLS 估计可能存在偏差,下⾯进⾏ 2SLS 估计。
ivregress 2sls LWKLYWGE YR20-YR28 RACE MARRIED SMSA NEWENG MIDATLENOCENT WNOCENT SOATL ESOCENT WSOCENT MT AGEQ AGEQSQ (EDUC =QTR120-QTR129 QTR220-QTR229 QTR320-QTR329 ), first
其中,⼯具变量 “QTR120-QTR129 QTR220-QTR229 QTR320-QTR329” 为出⽣年度虚拟变量与出⽣季度虚拟变量的交互项;⽐如,QTR120为第1季度出⽣虚拟变量与1920年出⽣虚拟变量的交互项,以此类推。
选择项 “first” 表⽰显⽰第⼀阶段回归的结果:
从以上结果可知,绝⼤多数⼯具变量均不显著,⽽第⼀阶段回归的 仅有 0.0581,似乎存在弱⼯具变量。
从第⼆阶段回归的结果可知,2SLS 估计的教育投资回报率为 6.0%(与 OLS 估计值 6.3% ⼗分接近),且在 5% ⽔平上显著。下⾯检验是否存在弱⼯具变量。
. estat first
上表显⽰,第⼀阶段回归的 F 统计量仅为 1.61,远⼩于 10,也远⼩于表格下部所列的 10%2SLS相对偏差(2SLS relative bias)的临界值 11.34,故存在弱⼯具变量。
为进⼀步考察⼯具变量的强弱,下⾯将内⽣变量 EDUC 对所有⼯具变量进⾏回归,但不加⼊其他控制变量:
reg EDUC QTR120-QTR129 QTR220-QTR229 QTR320-QTR329
从上表可知,虽然许多⼯具变量很显著(主要由于样本容量很⼤,故标准误很⼩),但整个回归⽅程的 却仅有 0.0027!
下⾯进⾏对于弱⼯具变量更不敏感的 LIML 估计。
ivregress liml LWKLYWGE YR20-YR28 RACE MARRIED SMSA NEWENG MIDATLENOCENT WNOCENT SOATL ESOCENT WSOCENT MT AGEQ AGEQSQ (EDUC =QTR120-QTR129 QTR220-QTR229 QTR320-QTR329 )
上表显⽰,LIML 估计的教育投资回报率为 5.5%(但不再显著),依然接近于2SLS 估计值。部分地基于 LIML 与 2SLS 估计值的接近,Angrist and Pischke (2009, 第215页) 坚持认为出⽣季度的⼯具变量不弱,⽽且反对将 “ F > 10 ” 作为检验弱⼯具变量的⾦科⽟律。
Bound, Jaeger and Baker (1995) 则发现,即使以随机产⽣的出⽣季度(并⾮真实的出⽣季度)作为⼯具变量,使⽤ 2SLS 也能得到相似的教育投资回报率与统计显著性! 这再次证明在弱⼯具变量的情况下,所得 2SLS 结果是不可信的。
增强⼯具变量的⽅法之⼀是去掉多余的弱⼯具变量。为此,只使⽤出⽣季度虚拟变量为⼯具变量(不再使⽤交互项作为⼯具变量),并仅保留出⽣年份虚拟变量作为控制变量,再次进⾏2SLS 回归(参见 Angrist and Pischke, 2009, 第214页,Table 4.6.4,第1列):
. ivregress 2sls LWKLYWGE YR20-YR28 (EDUC = QTR1 QTR2 QTR3)
其中,“QTR1 QTR2 QTR3” 分别表⽰第 1、第 2 与第 3 季度的出⽣季度虚拟变量,⽽ “YR20-YR28” 则分别表⽰在 1920-1928 年出⽣的年度虚拟变量。
. estat first
上表显⽰,第⼀阶段回归的 F 统计量上升到 32.27,已不存在弱⼯具变量问题。然⽽,2SLS 估计的教育投资回报率不合理地升⾄ 10.5%(在 1% ⽔平上显著),故此结果依然不可信。
可能的原因是,由于控制变量太少(遗漏的控制变量被纳⼊扰动项),故⼯具变量更可能与扰动项相关,使得⼯具变量不满⾜外⽣性。事实上,有些学者也怀疑出⽣季度虚拟变量的外⽣性
(⽐如,Bound, Jaeger and Baker, 1995)。当⼯具变量有轻微的内⽣性时,2SLS 估计量将不再⼀致。更糟糕的是,如果此时出现弱⼯具变量的并发症,则会进⼀步放⼤ 2SLS 的不⼀致性,⽆异于雪上加霜,即使样本容量超过 30 万也恐怕⽆济于事。
预祝新年快乐,计量突飞猛进!参考⽂献
Angrist, Joshua D. and Alan B. Krueger, 'Does Compulsory School Attendance AffectSchooling and Earnings?' Quarterly Journal of Economics, 1991, 106(4), 979-1014.
Angrist, Joshua D. and Jorn-Steffen Pischke, Mostly Harmless Econometrics: An Empiricist'sCompanion, Princeton University Press, 2009.
Bound, John, David A. Jaeger, and Regina M. Baker, 'Problems with Instrumental VariablesEstimation When the Correlation Between the
Instruments and the Endogeneous Explanatory Variable is Weak,' Journal of the AmericanStatistical Association, 1995, 90(430), 443-450.
Stock, James, and Mark Watson, Introduction to Econometrics (3rd edition, Global Edition),Pearson Education Limited, 2012.
陈强,《⾼级计量经济学及Stata应⽤》,第2版,⾼等教育出版社,2014年。
陈强,《计量经济学及Stata应⽤》,⾼等教育出版社,2015年。