加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

截面数据、时间序列数据、面板数据、PooledData

(2017-10-03 23:34:56)
标签:

it

教育

分类: 面板数据分析

1、截面数据(cross-section data

是不同主体在同一时间点或同一时间段的数据,也称静态数据,是样本数据中的常见类型之一。例如,工业普查数据,人口普查数据,家庭收入调查数据。在数学,计量经济学中应用广泛。

 

例子:

2017103日股票数据

股票代码

开盘

收盘

最高

最低

600001

10.23

10.23

10.23

10.23

600002

10.23

10.23

10.23

10.23

600003

10.23

10.23

10.23

10.23

 

表中一行就是一个截面数据。

但这个表并不能称为面板数据。只能称为多个截面数据。

一个截面可以称为一个个体。

 

或变形为:

股票代码

时间

收盘

600001

2017-10-3

10.23

600002

2017-10-3

10.23

600003

2017-10-3

10.23

 

 

2、时间序列数据

是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。很多计量经济学的模型也用到了时间序列数据。

例子:

股票600001的日线数据

时间

开盘

收盘

最高

最低

2017-10-3

10.23

10.23

10.23

10.23

2017-10-4

10.23

10.23

10.23

10.23

2017-10-5

10.23

10.23

10.23

10.23

 

上表并不能称为面板数据。只能称为多个时间序列。表中一列就是一个时间序列数据,即:

 

时间

收盘

2017-10-3

10.23

2017-10-4

10.23

2017-10-5

10.23

 

一个序列可以称为某个个体的某个属性在不同时间点上的取值。

 

或变形为:

股票代码

时间

收盘

600001

2017-10-3

10.67

600001

2017-10-4

10.23

600001

2017-10-5

12.23

 

 

3、面板数据,

Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。或者说他是一个m*n的数据矩阵,记载的是n个时间节点上,m个对象的某一数据指标。

例子:

多只股票在多个时间点上的交易数据。

   股票代码

时间

600001

600002

开盘

收盘

最高

最低

开盘

收盘

最高

最低

2017-10-3

10.33

10.64

12.23

14.23

44.45

78.23

34.23

66.45

2017-10-4

16.23

19.23

22.23

10.93

56.65

34.23

67.23

13.57

2017-10-5

20.23

23.57

17.23

10.57

45.23

34.43

49.53

78.12

 

或变形为:

股票代码

时间

开盘

收盘

最高

最低

600001

2017-10-3

10.33

10.64

12.23

14.23

600001

2017-10-4

16.23

19.23

22.23

10.93

600001

2017-10-5

20.23

23.57

17.23

10.57

600002

2017-10-3

44.45

78.23

34.23

66.45

600002

2017-10-4

56.65

34.23

67.23

13.57

600002

2017-10-5

45.23

34.43

49.53

78.12

 

或,多只股票在多个时间点上的收盘数据。

股票代码

时间

600001

600002

600003

2017-10-3

10.67

12.23

10.78

2017-10-4

10.23

11.23

10.79

变形为:

股票代码

时间

收盘

600001

2017-10-3

10.67

600001

2017-10-4

10.23

600002

2017-10-3

12.23

600002

2017-10-4

11.23

600003

2017-10-3

10.78

600003

2017-10-4

10.79

 

以上4个表都称为面板数据。

 

4Pooled Cross Sectional Data

Both pooled cross sectional data and pure panel data collect data over tine (this can range from 2 time periods to any large number). They key difference between the two is the "units" we follow. I am defining units as households, countries, or whatever we are collecting data on. In pooled cross section, we will take random samples in different time periods, of different units, i.e. each sample we take, will be populated by different individuals. This is often used to see the impact of policy or programmes. For example we will take household income data on households X, Y and Z, in 1990. And then we will take the same income data on households G, F and A in 1995. Although we are interested in the same data, we are taking different samples (using different households) in different time periods.

 

In pure panel data, we are following the same units i.e. the same households or individuals over time. For example we will follow the same set of households X, Y and Z, for each time period we collect data i.e. in 1990 and we will also interview the same households in 1995.

 

Therefore the fundamental difference, is simply the units we observe the data for.

 

例如,面板数据(特点:不同时间的individual non independant):

股票代码

时间

开盘

收盘

最高

最低

600001

2017-10-3

10.33

10.64

12.23

14.23

600001

2017-10-4

16.23

19.23

22.23

10.93

600001

2017-10-5

20.23

23.57

17.23

10.57

600002

2017-10-3

44.45

78.23

34.23

66.45

600002

2017-10-4

56.65

34.23

67.23

13.57

600002

2017-10-5

45.23

34.43

49.53

78.12

600003

2017-10-3

23.74

62.44

59.03

18.07

600003

2017-10-4

20.73

28.61

95.25

47.12

600003

2017-10-5

29.62

7.58

90.72

55.06

600004

2017-10-3

89.15

30.15

10.97

6.62

600004

2017-10-4

51.51

13.90

72.92

56.03

600004

2017-10-5

46.08

69.06

98.58

71.54

 

从中选出红色的行,构成pooled cross sectional data

股票代码

时间

开盘

收盘

最高

最低

600001

2017-10-3

10.33

10.64

12.23

14.23

600002

2017-10-3

44.45

78.23

34.23

66.45

600003

2017-10-4

20.73

28.61

95.25

47.12

600004

2017-10-4

51.51

13.90

72.92

56.03

 特点:individual independent 个体独立

 

或面板数据:

股票代码

时间

收盘

600001

2017-10-3

10.67

600001

2017-10-4

10.23

600002

2017-10-3

12.23

600002

2017-10-4

11.23

600003

2017-10-3

10.78

600003

2017-10-4

10.79

从中选出红色的行,构成pool data

股票代码

时间

收盘

600001

2017-10-3

10.67

600002

2017-10-4

11.23

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有