截面数据、时间序列数据、面板数据、PooledData
(2017-10-03 23:34:56)
标签:
it教育 |
分类: 面板数据分析 |
1、截面数据(cross-section data)
是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。例如,工业普查数据,人口普查数据,家庭收入调查数据。在数学,计量经济学中应用广泛。
例子:
2017年10月3日股票数据
|
股票代码 |
开盘 |
收盘 |
最高 |
最低 |
|
600001 |
10.23 |
10.23 |
10.23 |
10.23 |
|
600002 |
10.23 |
10.23 |
10.23 |
10.23 |
|
600003 |
10.23 |
10.23 |
10.23 |
10.23 |
表中一行就是一个截面数据。
但这个表并不能称为面板数据。只能称为多个截面数据。
一个截面可以称为一个个体。
或变形为:
|
股票代码 |
时间 |
收盘 |
|
600001 |
2017-10-3 |
10.23 |
|
600002 |
2017-10-3 |
10.23 |
|
600003 |
2017-10-3 |
10.23 |
2、时间序列数据
是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。很多计量经济学的模型也用到了时间序列数据。
例子:
股票600001的日线数据
|
时间 |
开盘 |
收盘 |
最高 |
最低 |
|
2017-10-3 |
10.23 |
10.23 |
10.23 |
10.23 |
|
2017-10-4 |
10.23 |
10.23 |
10.23 |
10.23 |
|
2017-10-5 |
10.23 |
10.23 |
10.23 |
10.23 |
上表并不能称为面板数据。只能称为多个时间序列。表中一列就是一个时间序列数据,即:
|
时间 |
收盘 |
|
2017-10-3 |
10.23 |
|
2017-10-4 |
10.23 |
|
2017-10-5 |
10.23 |
一个序列可以称为某个个体的某个属性在不同时间点上的取值。
或变形为:
|
股票代码 |
时间 |
收盘 |
|
600001 |
2017-10-3 |
10.67 |
|
600001 |
2017-10-4 |
10.23 |
|
600001 |
2017-10-5 |
12.23 |
3、面板数据,
即Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。或者说他是一个m*n的数据矩阵,记载的是n个时间节点上,m个对象的某一数据指标。
例子:
多只股票在多个时间点上的交易数据。
|
时间 |
600001 |
600002 |
||||||
|
开盘 |
收盘 |
最高 |
最低 |
开盘 |
收盘 |
最高 |
最低 |
|
|
2017-10-3 |
10.33 |
10.64 |
12.23 |
14.23 |
44.45 |
78.23 |
34.23 |
66.45 |
|
2017-10-4 |
16.23 |
19.23 |
22.23 |
10.93 |
56.65 |
34.23 |
67.23 |
13.57 |
|
2017-10-5 |
20.23 |
23.57 |
17.23 |
10.57 |
45.23 |
34.43 |
49.53 |
78.12 |
或变形为:
|
股票代码 |
时间 |
开盘 |
收盘 |
最高 |
最低 |
|
600001 |
2017-10-3 |
10.33 |
10.64 |
12.23 |
14.23 |
|
600001 |
2017-10-4 |
16.23 |
19.23 |
22.23 |
10.93 |
|
600001 |
2017-10-5 |
20.23 |
23.57 |
17.23 |
10.57 |
|
600002 |
2017-10-3 |
44.45 |
78.23 |
34.23 |
66.45 |
|
600002 |
2017-10-4 |
56.65 |
34.23 |
67.23 |
13.57 |
|
600002 |
2017-10-5 |
45.23 |
34.43 |
49.53 |
78.12 |
或,多只股票在多个时间点上的收盘数据。
|
股票代码 时间 |
600001 |
600002 |
600003 |
|
2017-10-3 |
10.67 |
12.23 |
10.78 |
|
2017-10-4 |
10.23 |
11.23 |
10.79 |
变形为:
|
股票代码 |
时间 |
收盘 |
|
600001 |
2017-10-3 |
10.67 |
|
600001 |
2017-10-4 |
10.23 |
|
600002 |
2017-10-3 |
12.23 |
|
600002 |
2017-10-4 |
11.23 |
|
600003 |
2017-10-3 |
10.78 |
|
600003 |
2017-10-4 |
10.79 |
以上4个表都称为面板数据。
4、Pooled Cross Sectional Data
Both pooled cross sectional data and pure panel data collect data over tine (this can range from 2 time periods to any large number). They key difference between the two is the "units" we follow. I am defining units as households, countries, or whatever we are collecting data on. In pooled cross section, we will take random samples in different time periods, of different units, i.e. each sample we take, will be populated by different individuals. This is often used to see the impact of policy or programmes. For example we will take household income data on households X, Y and Z, in 1990. And then we will take the same income data on households G, F and A in 1995. Although we are interested in the same data, we are taking different samples (using different households) in different time periods.
In pure panel data, we are following the same units i.e. the same households or individuals over time. For example we will follow the same set of households X, Y and Z, for each time period we collect data i.e. in 1990 and we will also interview the same households in 1995.
Therefore the fundamental difference, is simply the units we observe the data for.
例如,面板数据(特点:不同时间的individual non independant):
|
股票代码 |
时间 |
开盘 |
收盘 |
最高 |
最低 |
|
600001 |
2017-10-3 |
10.33 |
10.64 |
12.23 |
14.23 |
|
600001 |
2017-10-4 |
16.23 |
19.23 |
22.23 |
10.93 |
|
600001 |
2017-10-5 |
20.23 |
23.57 |
17.23 |
10.57 |
|
600002 |
2017-10-3 |
44.45 |
78.23 |
34.23 |
66.45 |
|
600002 |
2017-10-4 |
56.65 |
34.23 |
67.23 |
13.57 |
|
600002 |
2017-10-5 |
45.23 |
34.43 |
49.53 |
78.12 |
|
600003 |
2017-10-3 |
23.74 |
62.44 |
59.03 |
18.07 |
|
600003 |
2017-10-4 |
20.73 |
28.61 |
95.25 |
47.12 |
|
600003 |
2017-10-5 |
29.62 |
7.58 |
90.72 |
55.06 |
|
600004 |
2017-10-3 |
89.15 |
30.15 |
10.97 |
6.62 |
|
600004 |
2017-10-4 |
51.51 |
13.90 |
72.92 |
56.03 |
|
600004 |
2017-10-5 |
46.08 |
69.06 |
98.58 |
71.54 |
从中选出红色的行,构成pooled cross sectional data:
|
股票代码 |
时间 |
开盘 |
收盘 |
最高 |
最低 |
|
600001 |
2017-10-3 |
10.33 |
10.64 |
12.23 |
14.23 |
|
600002 |
2017-10-3 |
44.45 |
78.23 |
34.23 |
66.45 |
|
600003 |
2017-10-4 |
20.73 |
28.61 |
95.25 |
47.12 |
|
600004 |
2017-10-4 |
51.51 |
13.90 |
72.92 |
56.03 |
或面板数据:
|
股票代码 |
时间 |
收盘 |
|
600001 |
2017-10-3 |
10.67 |
|
600001 |
2017-10-4 |
10.23 |
|
600002 |
2017-10-3 |
12.23 |
|
600002 |
2017-10-4 |
11.23 |
|
600003 |
2017-10-3 |
10.78 |
|
600003 |
2017-10-4 |
10.79 |
从中选出红色的行,构成pool data:
|
股票代码 |
时间 |
收盘 |
|
600001 |
2017-10-3 |
10.67 |
|
600002 |
2017-10-4 |
11.23 |

加载中…