新闻中心

面板数据分析方法(1)——什么是面板数据?

2023-05-09
浏览次数:
返回列表

面板数据(panel data)是包含多个个体,并且同一个体有一系列不同时间观测点的数据。相比于纯粹的横截面数据(只包含不同个体在一个时间点上的观测点)或者时间序列数据(只包含一个个体在不同时间点上的观测点),面板数据同时包括了横截面和时间序列两个维度上的数据:个体维度(i=1,2,…,N)和时间维度(t=1,2,…,T)。个体可以是个人、企业、行业或者国家;时间维度可以是年、月、日、时、分、秒。

举一个例子:

其中,ID代表个体(人)的识别号,YEAR 代表时间(年份),INC 代表个人收入,EDU代表受教育程度,AGE代表年龄,GENDER代表性别。表中有2个个体,每个个体有3年的观测点。

然而,并不是所有同时包含个体和时间两个维度的数据都是面板数据。下面的表格是一个合并横截面数据(pooled cross-sectional dataset)。表中记录了3年的数据,每年有2个个体。该数据和上表的面板数据的差异在于,它并没有跟踪记录同一个个体。这些观测点可以属于不同的个体。这个数据结构可以理解为2017年、2018年和2019年3个年份横截面数据的简单合并,因此我们也称之为合并横截面数据。

合并横截面数据没有跟踪同一个个体,它只是多年横截面数据的简单叠加,因此相比面板数据,它的信息价值较低。

面板数据分类

1.短面板与长面板

通常在微观层面的研究中,面板数据的个体维度N比较大,时间维度T比较小。这样的面板数据称为“短面板”。例如,有些大型调查数据可能跟踪几百万人,但每5 年调查一次,20年数据的T也只有4。反之,如果数据的N很小,T很大,则称为“长面板”。例如,G7国家经济数据只包含7个国家但有上百年的数据。当然,有些数据的N比较大,T也较大,则称之为“大面板”。以上市企业的财务数据为例,其中包含几千家上市企业,平均每家企业有几十个季度的财务数据。

2.平衡面板与非平衡面板

在面板数据中,如果对于每个个体,它们都有相同时间T的观测点,我们称之为“平衡面板;反之,则称为“非平衡面板”。

树懒学咖移动端:“树懒学咖”公众号

树懒学咖PC端:

树懒学咖​www.slothlearning.com​www.slothlearning.com​www.slothlearning.comwww.slothlearning.com

搜索