加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

[转载]关于EOF分解 [外一篇]

(2016-09-05 11:06:18)
标签:

转载

分类: 数学学习
原文地址:关于EOF分解 [外一篇]作者:小轩

 

    以下为原文《关于EOF分解》(2008-01-10发布)的那个“外一篇”。 在此特别感谢WY同学的倾情奉献(此人被号称为泰山三杰之一,在此顺便汗一下小宝同学 --b)

    Copyright by Yi Wang (CPEO of Ocean University of China, Qingdao, China). Comments and feedbacks are welcomed (sent below or emailed to hwsspy@hotmail.com)

1. 主成分分析原理介绍(该部分选自胡基福老师的《气象统计原理与方法》)

    为了直观理解主成分定义,设研究对象有x1x2两个变量(指标)(个人认为如果真想区分EOF和PCA,指标这个词是可以帮助理解的),共观测了n次,样本数据排列为

                                              x11, x12, …,x1n

                                              x21, x22, …,x2n

现以x1x2分别为坐标轴,对n对资料作相关点聚图。可见,由于x1x2的相关关系,使n个点的分布情况大致成一椭圆形(如图1所示)。显然,椭圆的长轴方向反映了n个点的主要变化趋势,可作为新变量y1,椭圆的短轴反映了n个点变化的次要趋势,可作为新变量y2。新变量y1y2有如下特征:

1)新变量y1y2相关关系很小(互相独立)
2)n个点在新变量y1方向上离散度最大,而在y2方向上离散度最小。

                                 http://s16/middle/72d80ad249ab964bb448f&690[外一篇]" />

                                                      图1

    因此,新变量y1y2综合反映了原变量x1x2的信息,是相互独立的,而且是按方差贡献(离散度)大小排列的,所以y1称为x1x2的第一主成分,y2称为x1x2的第二主成分。这种变量变换结果相当于在原坐标系中旋转一个角度θ,使新坐标y1在椭圆长轴方向上,y2在椭圆的短轴方向上。即使原变量x1x2的离散度在新坐标中重新分配,y1占绝大部分,而y2占小部分,但是其总和是相等的,例如:

                              http://s8/middle/72d80ad249ab9646a8c27&690[外一篇]" />

                                (55%)      (45%)        (80%)       (20%)

    可见我们若只取第一主成分y1来代替原变量x1x2,进行分析就可以达到80%的精度,从而达到降维分析的目的,这就是主成分分析的意义。(两个指标变一个)

2. 个人理解

    上面是主成分分析的意义,用一个新变量代替两个旧变量,降维~(或许不应该叫变量)

    先抛开EOF的具体分析方法,改用带气象海洋的特点,把上面的工作做一遍,看能发现什么:两个空间点x1x2(起码一条,不再是指标),n次观测(长度为n的时间序列)

                                              x11, x12, …,x1n

                                              x11, x12, …,x1n

x1x2分别为坐标轴,对n对资料作相关点聚图。还是那个椭圆,还是y1y2

                                            y1= x1cosθ+ x2sinθ

                                            y2= x2cosθ- x1sinθ

这个是很容易得到的。θ是两坐标系间的夹角。现在我们看图2:

                                     http://s11/middle/72d80ad249ab96472eefa&690[外一篇]" />

                                                  图2
 
红点是一个测点。蓝色的x1x2就是原始的数据。现在走出PCA的路线。不写y1y2的表达式了,把x1x2分别用y1y2表示,(对原数据影响力依次减小的项)就是:
 
                                            x1= y1cosθ- y2sinθ
                                            x2= y2cosθ+ y1sinθ

这样实际上是把原数据写成了两项和的形式。这是一个时刻的点,然后所有的点上面的式子就应该是

                                            x1n= y1ncosθ- y2nsinθ

                                            x2n= y2ncosθ+ y1nsinθ
 
或者换个写法,就全明白了
 
                                          x1(t)= y1(t)cosθ- y2(t)sinθ
                                          x2(t)= y2(t)cosθ+ y1(t)sinθ
 
很好理解,θ是只与空间有关的,y1(t)y2(t)是只和时间有关的(在椭圆上不同的点不同)。这就是两个空间点时间序列的EOF分解~

    把两个点扩展成n个点,那么点聚图就变成了n维,就有n个模态,椭圆就变成了椭球或者然后我们不知名的椭某某,式子就写成了y1ynθ的表达式。y几的那一项就是第几模态,因为y1yn的影响逐渐减小的。

    简单说,我现在理解EOF就是在把原数据拆成若干项和的形式,每项反映原数据的程度依次降低。而且每项时间导数空间导数的组成也就好理解了(有上面的表达式),就说当时间系数变化定数时,空间系数绝对值越大,这个点数据的变化程度越大(不同空间点的比较)。同样空间系数固定时,时间系数变化越大,不同时刻数据变化越大(不同时间点的比较)在这样理解的基础上空间系数分布和时间系数曲线图就好看了。而且该方法与物理意义不对应,纯是数学方法,有上面的表达式,也好理解了。

0

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有