数据类型是统计学最基本的概念之一。经济数据按照不同的性质可以划分为不同的数据类型。从时空维度来看,经济数据可大致分为三种类型,分别是时间序列数据、截面数据和面板数据。
一、时间序列数据、截面数据、面板数据的定义
1.时间序列数据(Time-series Data):是指对同一经济个体的变量在不同时间连续观察所取得的数据。它主要反映研究对象随时间的变化状态或程度,寻找研究对象的历史发展规律。如改革开放以来我国国内生产总值(GDP)数据、人口总量数据、居民人均可支配收入数据等。
2.截面数据(Cross-sectional Data):是指在同一时间点上对多个经济个体的变量所收集的数据。它对应的是同一时间点上不同对象所组成的一维数据集合,研究的是某一时点上的某种经济现象,突出不同对象的差异。如某年度的经济普查数据、人口普查数据、家庭收入调查数据等。
3.面板数据(Panel Data):指的是多个经济个体的变量在一段时间内的数据。它是将“截面数据”和“时间序列数据”综合起来的一种数据类型。该数据类型也被称为“纵向数据(Longitudinal Data)”“平行数据”“TS-CS数据(Time Series-Cross Sectional Data)”。如改革开放以来各省(区、市)GDP数据、人口数据、居民人均可支配收入数据等。
二、时间序列数据、截面数据、面板数据的特点和区别
从上文的定义可以得知,时间序列数据、截面数据、面板数据在数据采集方式、数据结构和维度等方面存在明显差异,除此之外,在数据分析和推断以及数据模型和方法等方面也存在较大区别。研究者在使用这些不同类型数据时需要根据研究问题和目标选择适当的方法和模型,以获得准确的分析结果和有效的推断。
1.数据采集方式不同。时间序列数据是在连续时间点上对一个变量进行的观测,通常是按照一定时间间隔(如每月、每季度或每年)对同一变量进行观测得到的。截面数据是在特定时间点上对一组个体进行的观测,可以看作是在某个时间点上的“横截面”,反映同一时间点上不同个体的状态或属性。面板数据是通过在多个时间点上对同一组个体进行观测而获得的数据,需要跟踪相同的个体并在多个时间点上进行观测。
2.数据结构和维度不同。时间序列数据只包含一个个体或单位在连续时间点上的观测,只有时间维度。截面数据只包含一个时间点上的观测,只有个体维度。面板数据可以包含大量的个体和多个时间点,通常具有个体和时间两个维度。
3.数据分析和推断不同。时间序列数据用于研究变量随时间的演变和趋势。通过分析时间序列数据,可以揭示变量的季节性、趋势性、周期性以及其他时间相关的特征,并进行预测和推断。截面数据主要用于描述和比较个体之间的差异,例如不同地区、不同群体或不同行业之间的差异。截面数据的分析主要关注个体之间的交叉部分,例如平均值、比较和相关性等。面板数据可以用于研究个体的变化趋势和个体之间的相关性。通过分析面板数据,可以探索个体固定效应和时间效应对变量的影响,并进行个体水平和时间水平的推断。
4.数据模型和方法不同。时间序列数据分析常用的方法包括自回归移动平均模型(ARMA)、差分自回归移动平均模型(ARIMA)、向量自回归模型(VAR)等。时间序列分析方法可以捕捉数据中的时间相关性和趋势性。截面数据分析通常使用横截面回归模型、方差分析、独立样本t检验等统计方法。截面数据分析主要关注个体之间的差异,常用于比较和描述。面板数据分析常用的方法包括面板数据回归模型、固定效应模型和随机效应模型等。面板数据模型可以控制个体和时间的固定效应,从而解决个体异质性和时间相关性的问题。
三、时间序列数据、截面数据、面板数据的案例分析
表1为2016—2022年我国各省(区、市)地区生产总值的数据。每一单独行为时间序列数据,每一单独列为截面数据,整个表合起来则为面板数据。
以第一行为例,第一行数据为2016—2022年北京市地区生产总值数据,反映的是同一个个体(北京市)在不同时间点上(2016—2022年)的某一个经济变量(地区生产总值)的变化情况,其数据类型为时间序列数据。
第一列数据为2016年31个地区的地区生产总值数据,反映的是同一时间点上(2016年)不同个体(31个地区)的某一个经济变量(地区生产总值)的差异情况,其数据类型为截面数据。
表1 2016—2022年我国各省(区、市)地区生产总值
表1数据为2016—2022年31个地区的地区生产总值数据,反映的是不同个体(31个地区)不同时间点上(2016—2022年)的某一个经济变量(地区生产总值)的总体情况,是截面数据和时间序列数据的综合体现,其数据类型为面板数据。