新闻中心

计量经济学笔记(三):面板数据分析

2023-05-09
浏览次数:
返回列表

在之前的计量经济学系列中,酷酷的我和宝贝们一起学习了“线性回归的模型设计”与“异方差和自相关”的知识。今天,更酷一层楼的我和大家分享面板数据分析的笔记。

众所周知,经济数据有截面数据(cross sectional data)、时序数据(time series data)和面板数据(panel data)三种类型。截面数据是A和B比,时序数据是以前的A和现在的A比,这两种数据都是一维的。而面板数据是二维数据,既有截面维度(n个个体),也有时间维度(T个时期)。比如所有公司所有年份的财务报表数据,再比如知乎这篇文章[1]举的例子:

每个个体在不同时间的数据称为一组数据,比如老友记这个例子里面有六个人,所以就有六组数据。同一时点不同个体的差异叫组间差异,不同时点同一个体的差异叫组内差异。说得更直白点,组间差异是Chandler和Joey的颜值差异,组内差异是Chandler不同时期的颜值差异。在面板数据模型中,为了准确地进行参数估计,我们需要同时考虑这两种差异。

面板数据有多种分类方法,今天的笔记只关注最常见的“静态短面板”数据,先讲一讲面板数据的基础设定,然后分别讲一下混合效应、固定效应和随机效应三种估计策略,最后对不同估计方法做个比较。希望大家都有所收获!

这篇文章首发于我的学习笔记类公众号“可乐学人”,欢迎赏脸关注。

静态指解释变量(x)不包含被解释变量(y)的滞后值,短面板指个体(n)多时期(T)少。至于动态面板和长面板,害,能力有限,用到的时候再说吧。一、模型设定1. 个体效应模型2. 三种估计策略二、混合效应三、固定效应1. 个体固定效应模型2. 双向固定效应模型3. 固定效应模型小结四、随机效应1. 模型设定2. 估计方法3. 随机效应模型小结五、估计策略比较1. 混合效应 vs 个体效应2. 固定效应 vs 随机效应

一、模型设定

1. 个体效应模型

先回顾一下截面数据回归时的线性模型形式,ii表示第ii个个体:

yi=xi′β+εi(i=1,⋯,n)y_{i} = \mathbf{x}_{i}^{\prime} \boldsymbol{\beta} + \varepsilon_i\quad (i = 1, \cdots,n) \\

给截面数据加入时间维度后,线性模型设定如下,tt表示第tt个时期:

yit=xit′β+ui+εit(i=1,⋯,n;t=1,⋯,T)y_{i t}=\mathbf{x}_{i t}^{\prime} \boldsymbol{\beta}+u_{i} + \varepsilon_{i t} \quad(i=1, \cdots, n ; t=1, \cdots, T) \\

这种模型叫“个体效应模型”(individual-specific effects model),与截面数据模型的区别在于多了一项uiu_iuiu_i是不可观测和量化的随机变量,代表了个体异质性。

比如要研究老友记主角颜值的变化,可以选择主角的收入、是否双眼皮、是否为圆脸等可以观测的因素作为解释变量xit\mathbf{x}_{i t},但是性格、习惯等因素也可能对颜值产生影响,而这些数据难以观测和量化。uiu_i正是考虑了这种“不随时间变化但随个体变化”的因素。

2. 三种估计策略

面板数据有三种估计策略,区别在于对个体效应uiu_i的假定不同。

首先,考虑到个体效应多数情况下难以观测和量化,因此第一种估计策略就是忽略个体效应,直接把所有数据混合到一起进行回归,这种方法叫混合效应模型(Pooled model),也叫混合回归(Pooled regression)。此时,所有个体的回归方程都是一样的,即,截距项和斜率项都一样。

固定效应模型(Fixed effect model)和随机效应模型(Random effect model)则考虑到了个体效应。这两类模型的共同点是模型设定相同,个体差异反映在异质性截距uiu_i上,即,不同个体的斜率相同但截距不同。两类模型的区别在于模型假设不同,FE假设异质性截距是非随机的,而RE假设异质性截距是随机的;FE假设uiu_i与某个解释变量相关,而RE假设uiu_i与所有解释变量均不相关。

接下来我先详细介绍一下三类估计策略,然后再进行细致的比较。

二、混合效应

混合回归假定不存在个体效应,所有个体都拥有一样的回归方程,此时可以把所有数据混在一起,像截面数据一样回归。

然而,因为面板数据结合了截面和时序的特点,所以面板数据的扰动项之间的相关性很有意思:

截面特点 → 不同个体之间的扰动项相互独立时序特点 → 同一个体不同时期的扰动项自相关

这样的样本数据可以理解成聚类(cluster)样本,每个个体不同时期的所有观测值构成一个聚类:

同一聚类的观测值互相相关不同聚类之间的观测值不相关

此时要用聚类稳健的标准误(cluster-robust standard error),形式上也是夹心估计量。具体可以参考我在异方差和自相关一文中的介绍。

混合回归忽略了个体之间不可观测的异质性,这种异质性很可能与解释变量相关而导致估计不一致。

三、固定效应

1. 个体固定效应模型

个体效应模型的形式如下:

yit=xit′β+ui+εit(i=1,⋯,n;t=1,⋯,T)y_{i t}=\mathbf{x}_{i t}^{\prime} \boldsymbol{\beta}+u_{i}+\varepsilon_{i t} \quad(i=1, \cdots, n ; t=1, \cdots, T) \\

固定效应模型假设uiu_i与某个解释变量相关,也就是复合扰动项ui+εitu_i+\varepsilon_{i t}与解释变量相关,所以直接进行OLS会导致估计不一致。这种假设下的模型实际上相当于每个个体的截距项不同,而且这种截距的异质性是非随机的,反映在uiu_i的不同上。

估计固定效应模型有两大思路。一是通过模型变换消除个体效应uiu_i,具体又分为离差变换和差分变换两种,二是通过最小二乘虚拟变量(Least Square Dummy Variable, LSDV)法,为每个个体添加一个虚拟变量,从而反映异质性截距。

实际中估计个体固定效应模型用的最多的方法是离差变换法。首先在方程两边对时间取平均,然后再将原方程减去平均以后的方程,就可以得到离差方程:

yit−y¯i=(xit−x¯i)′β+(εit−ε¯i)y_{i t}-\bar{y}_{i}=\left(\mathbf{x}_{i t}-\overline{\mathbf{x}}_{i}\right)^{\prime} \beta+\left(\varepsilon_{i t}-\bar{\varepsilon}_{i}\right) \\

可以看到离差方程中没有uiu_i,新扰动项与解释变量不相关,所以对这个方程进行OLS的估计是一致的。

离差变换消去了不同个体的组间差异,保留了每个个体的组内差异,因此这种方法的估计结果也称为组内估计量。同时要注意的是,同一个体不同时间的扰动项可能相关,即可能存在组内自相关,所以还需要使用以每个个体为聚类的聚类稳健标准误。

2. 双向固定效应模型

个体固定效应指的是“不随时间而变,但随个体而变”的效应,比如企业文化;与此类似的,时间固定效应指的是“不随个体而变,但随时间而变”的效应,比如企业经营的宏观经济环境。

同时包含个体固定效应和时间固定效应的模型称为双向固定效应(Two-way FE)模型,直接在个体固定效应模型中加入时间固定效应λt\lambda_t

yit=xit′β+λt+ui+εit(i=1,⋯,n;t=1,⋯,T)y_{i t}=\mathbf{x}_{i t}^{\prime} \boldsymbol{\beta}+ \lambda_t+u_{i}+\varepsilon_{i t} \quad(i=1, \cdots, n ; t=1, \cdots, T) \\

其中,λt\lambda_t刻画时间固定效应,uiu_i刻画个体固定效应。

时间固定效应模型一般通过最小二乘虚拟变量(Least Square Dummy Variable, LSDV)来估计。对每个时期定义一个虚拟变量,把(T−1)(T-1)个时间虚拟变量包括在回归方程中:

yit=α+xit′β+∑t=2TγtDt+ui+εity_{i t}=\alpha+\mathbf{x}_{i t}^{\prime} \boldsymbol{\beta}+\sum_{t=2}^{T} \gamma_{t} D_{t}+u_{i}+\varepsilon_{i t} \\

因为虚拟变量的存在,所以每个时间tt的截距项都不同,这就体现了时间固定效应。

3. 固定效应模型小结

固定效应模型的相关内容可以总结为以下三点:

假定:个体效应uiu_i与解释变量相关,每个个体都有非随机的截距项估计:主流估计策略为“双向固定效应+聚类稳健标准误”结果:可以得到一致估计

四、随机效应

1. 模型设定

随机效应模型和固定效应模型的回归方程一样,都是之前提到的个体效应模型:

yit=xit′β+ui+εit(i=1,⋯,n;t=1,⋯,T)y_{i t}=\mathbf{x}_{i t}^{\prime} \boldsymbol{\beta}+u_{i}+\varepsilon_{i t} \quad(i=1, \cdots, n ; t=1, \cdots, T) \\

不过随机效应模型假定uiu_i与解释变量不相关,也就是说,异质性截距反映在随机的扰动项里。在这种假设下,OLS估计一致,但是因为同一个体不同时期的扰动项中都存在uiu_i项,所以一定存在自相关,导致估计不有效。

回想线性回归的模型设计中介绍的线性回归模型六大经典假定可知,随机效应模型的设定违背了球形扰动项假定。

球形扰动项(spherical disturbance)是指扰动项的协方差矩阵与单位矩阵成正比,异方差和自相关是常见的违背球形扰动项假定的情形。

Var⁡(ε|X)=E⁡[εε′∣X]=σ2In\operatorname{Var}(\boldsymbol{\varepsilon}|\boldsymbol{X})= \operatorname{E}\left[\boldsymbol{\varepsilon \varepsilon^{\prime}} \mid \boldsymbol{X}\right]= \sigma^2 \boldsymbol{I_n} \\

根据随机效应模型的设定,不难得出随机效应模型的扰动项协方差阵不与单位阵成正比:

同一个体扰动项的协方差阵可以写成:

Σ=(σu2+σε2σu2⋯σu2σu2σu2+σε2⋯σu2⋮⋮⋮σu2σu2⋯σu2+σε2)T×T\Sigma=\left(\begin{array}{cccc} \sigma_{u}^{2}+\sigma_{\varepsilon}^{2} & \sigma_{u}^{2} & \cdots & \sigma_{u}^{2} \\ \sigma_{u}^{2} & \sigma_{u}^{2}+\sigma_{\varepsilon}^{2} & \cdots & \sigma_{u}^{2} \\ \vdots & \vdots & & \vdots \\ \sigma_{u}^{2} & \sigma_{u}^{2} & \cdots & \sigma_{u}^{2}+\sigma_{\varepsilon}^{2} \end{array}\right)_{T \times T}\\

整个样本扰动项的协方差阵为块对角矩阵(block diagonal matrix):

Ω=(Σ⋯0⋮⋮0⋯Σ)nT×nT\Omega=\left(\begin{array}{ccc} \Sigma & \cdots & 0 \\ \vdots & & \vdots \\ 0 & \cdots & \Sigma \end{array}\right)_{n T \times n T}\\

2. 估计方法

回顾我在异方差和自相关一文中的介绍,广义最小二乘法方法通过变量转换,可以使变换后的模型满足球形扰动项的假定。实践中,可以先用样本数据估计出未知参数,然后使用GLS,这个估计方法称为可行广义最小二乘法(Feasible GLS)。

作为不搞理论计量的人,这些估计方法最重要的是理解和应用,所以下面写的这几行,了解了解就行了。

首先定义:

θ=1−σε(Tσu2+σε2)1/2=1−(σε2Tσu2+σε2)1/2\theta = 1- \frac{\sigma_\varepsilon}{(T \sigma_u^2 + \sigma_\varepsilon^2)^{1/2}} = 1 - (\frac{\sigma_\varepsilon^2}{T \sigma_u^2 + \sigma_\varepsilon^2})^{1/2} \\

接着,将原方程两边对时间进行平均,并在两边同时乘以θ\theta,再将原方程减去新方程,可以得到广义离差(quasi-demeaned)模型:

yit−θy¯i=(xit−θx¯i)′β+(1−θ)zi′δ+[(1−θ)ui+(εit−θε¯i)]y_{i t}-\theta \bar{y}_{i}=\left(\mathbf{x}_{i t}-\theta \overline{\mathbf{x}}_{i}\right)^{\prime} \mathbf{\beta}+(1-\theta) \mathbf{z}_{i}^{\prime} \mathbf{\delta}+\left[(1-\theta) u_{i}+\left(\varepsilon_{i t}-\theta \bar{\varepsilon}_{i}\right)\right] \\

可以证明,广义离差方程的扰动项不再有自相关,对广义离差方程进行OLS估计,即为GLS估计量。

另外,因为θ\theta通常未知,所以要先估计θ^\hat{\theta}

因为OLS一致,OLS的扰动项为ui+εitu_i + \varepsilon_{it},所以可以用OLS的残差估计σu2+σε2\sigma_{u}^{2}+\sigma_{\varepsilon}^{2}因为FE一致,FE的扰动项为εit−ε¯it\varepsilon_{it} - \bar{\varepsilon}_{it},所以可以用FE的残差估计σε2\sigma_{\varepsilon}^2

3. 随机效应模型小结

随机效应模型的相关内容可以总结成如下三点:

假定:个体效应uiu_i与解释变量不相关,异质性截距反映在随机扰动项中估计:估计策略与截面数据处理自相关类似,用广义最小二乘法结果:满足假定时,可以得到一致且有效的估计

五、估计策略比较

1. 混合效应 vs 个体效应

混合效应模型,所有个体的回归方程相同,即,截距和斜率都相同。

个体效应模型,同时考虑个体的共性和异质性,共性表现在斜率相同,异质性表现在截距不同。

比如,橙色和蓝色的点分别表示两类个体,混合回归是将所有个体一起回归得到绿色的线,固定效应模型则用异质性截距考虑到了个体差异:

2. 固定效应 vs 随机效应

固定效应,异质性截距与自变量相关;随机效应,异质性截距与自变量无关。

固定效应模型的假定下,OLS不一致,解决方法是通过转换模型消去uiu_i,从而获得一致估计;而随机效应时,OLS一致,但因为uiu_i的存在,球形扰动项假定不满足,解决方法是用广义最小二乘法将扰动项变为同方差,从而获得有效估计。

用豪斯曼检验(Hausman,1978)可以判断到底使用FE还是RE。原假设是“随机效应模型为正确模型”,即检验原假设“H0H_0uiu_ixit\mathbf{x}_{it}不相关”。注意到:

原假设成立时,FE与RE都一致,但RE更有效

原假设不成立时,FE一致,而RE不一致

也就是说,原假设成立时FE与RE都一致,这就意味着二者的估计量将共同收敛到真实的参数值:两者之差(β^FE−β^RE)\left( \hat{\boldsymbol{\beta}}_{FE} - \hat{\boldsymbol{\beta}}_{RE} \right)依概率收敛到零。如果两者差距过大,就倾向于拒绝原假设。

以二次型度量这个距离,并使用Wald统计量的形式(Wald检验只考虑无约束估计量,LM检验只考虑有约束估计量,LR检验同时考虑无约束和有约束估计量),就可以检验这个原假设。

不过,传统的豪斯曼检验的缺点在于不适用于异方差的情形,需要使用bootstrap hausman检验法或异方差稳健的Hausman检验。这里就不再赘述了,具体可以参考陈强老师的教材或者连玉君老师的文章[2]。

总结

今天的文章讲了静态面板数据的模型设定和估计策略。在经济学领域,最常用的模型是固定效应模型,最主流的估计方法是“双向固定效应+聚类稳健标准误”,对应的两种等价stata命令为:

xtreg y x1 x2 i.year, fe robust reg y x1 x2 i.id i.year, vce(cluster id)

另外,实证文章中用到双向固定效应模型时常常会使用要求没那么严苛的行业和年份固定效应,或者地区和行业固定效应。因为个体效应相当于每个个体截距项都不同,而行业固定效应则只需要给每个行业设置不同的截距项就可以了。“行业年份双向固定效应+行业聚类稳健标准误”的stata命令为:

reg y x1 x2 i.industry i.year, vce(cluster industry)

最后推荐一点有助于我学习面板数据的资料。首先还是强推陈强老师的教材《高级计量经济学及Stata应用》,废话少,而且偏应用,没那么枯燥;其次是连玉君老师的网站连享会[3],很多教材里没有的细枝末节问题里面都有讨论;最后是知乎的一篇文章[4],不同学科对FE和RE的理解不同,这篇文章详细讨论了方差分析、元分析、面板数据模型中FE和RE的区别。

最最后,知乎大神慧航有这么一幅图总结了面板数据分析里各种估计量的关系,Pooled OLS、Fixed Effects和Random Effects就分别对应了本文中提到的混合效应、固定效应和随机效应。First Differences是估计固定效应模型时的一阶差分法,Between Group和Within Group分别代表的是组间估计量和组内估计量。背后的证明没必要自己徒手去证,从整体上了解到各个方法之间实际上是有内在联系的,这就够了。

以上,就是本次分享的所有内容,如有错误欢迎批评指正,如果对你有帮助,可千万别忘了夸一声可乐最酷啊。我也超爱你们的!

参考资料

[1] 统计学中的「固定效应 vs. 随机效应」: https://zhuanlan.zhihu.com/p/60528092

[2] 面板数据模型一文读懂: https://www.lianxh.cn/news/bf27906144b4e.html

[3] 连享会网站: https://www.lianxh.cn/

[4] 统计学中的「固定效应 vs. 随机效应」: https://zhuanlan.zhihu.com/p/60528092

搜索