以下为原文《关于EOF分解》(2008-01-10发布)的那个“外一篇”。
在此特别感谢WY同学的倾情奉献(此人被号称为泰山三杰之一,在此顺便汗一下小宝同学 --b)
Copyright by Yi Wang (CPEO of Ocean
University of China, Qingdao, China). Comments and feedbacks are
welcomed (sent below or emailed to hwsspy@hotmail.com)
1. 主成分分析原理介绍(该部分选自胡基福老师的《气象统计原理与方法》)
为了直观理解主成分定义,设研究对象有x1与x2两个变量(指标)(个人认为如果真想区分EOF和PCA,指标这个词是可以帮助理解的),共观测了n次,样本数据排列为
x11, x12, …,x1n
x21, x22, …,x2n
现以x1与x2分别为坐标轴,对n对资料作相关点聚图。可见,由于x1与x2的相关关系,使n个点的分布情况大致成一椭圆形(如图1所示)。显然,椭圆的长轴方向反映了n个点的主要变化趋势,可作为新变量y1,椭圆的短轴反映了n个点变化的次要趋势,可作为新变量y2。新变量y1与y2有如下特征:
1)新变量y1与y2相关关系很小(互相独立)
2)n个点在新变量y1方向上离散度最大,而在y2方向上离散度最小。
http://s16/middle/72d80ad249ab964bb448f&690[外一篇]" />
图1
因此,新变量y1与y2综合反映了原变量x1与x2的信息,是相互独立的,而且是按方差贡献(离散度)大小排列的,所以y1称为x1与x2的第一主成分,y2称为x1与x2的第二主成分。这种变量变换结果相当于在原坐标系中旋转一个角度θ,使新坐标y1在椭圆长轴方向上,y2在椭圆的短轴方向上。即使原变量x1与x2的离散度在新坐标中重新分配,y1占绝大部分,而y2占小部分,但是其总和是相等的,例如:
http://s8/middle/72d80ad249ab9646a8c27&690[外一篇]" />
(55%)
(45%)
(80%) (20%)
可见我们若只取第一主成分y1来代替原变量x1与x2,进行分析就可以达到80%的精度,从而达到降维分析的目的,这就是主成分分析的意义。(两个指标变一个)
2. 个人理解
上面是主成分分析的意义,用一个新变量代替两个旧变量,降维~(或许不应该叫变量)
先抛开EOF的具体分析方法,改用带气象海洋的特点,把上面的工作做一遍,看能发现什么:两个空间点x1与x2(起码一条,不再是指标),n次观测(长度为n的时间序列)
x11, x12, …,x1n
x11, x12, …,x1n
以x1与x2分别为坐标轴,对n对资料作相关点聚图。还是那个椭圆,还是y1与y2
y1= x1cosθ+
x2sinθ
y2= x2cosθ-
x1sinθ
这个是很容易得到的。θ是两坐标系间的夹角。现在我们看图2:
http://s11/middle/72d80ad249ab96472eefa&690[外一篇]" />
图2
红点是一个测点。蓝色的x1与x2就是原始的数据。现在走出PCA的路线。不写y1与y2的表达式了,把x1与x2分别用y1与y2表示,(对原数据影响力依次减小的项)就是:
x1= y1cosθ-
y2sinθ
x2= y2cosθ+
y1sinθ
这样实际上是把原数据写成了两项和的形式。这是一个时刻的点,然后所有的点上面的式子就应该是
x1n= y1ncosθ-
y2nsinθ
x2n= y2ncosθ+
y1nsinθ
或者换个写法,就全明白了
x1(t)= y1(t)cosθ-
y2(t)sinθ
x2(t)= y2(t)cosθ+
y1(t)sinθ
很好理解,θ是只与空间有关的,y1(t)、y2(t)是只和时间有关的(在椭圆上不同的点不同)。这就是两个空间点时间序列的EOF分解~
把两个点扩展成n个点,那么点聚图就变成了n维,就有n个模态,椭圆就变成了椭球或者然后我们不知名的椭某某,式子就写成了y1到yn与θ的表达式。y几的那一项就是第几模态,因为y1到yn的影响逐渐减小的。
简单说,我现在理解EOF就是在把原数据拆成若干项和的形式,每项反映原数据的程度依次降低。而且每项时间导数空间导数的组成也就好理解了(有上面的表达式),就说当时间系数变化定数时,空间系数绝对值越大,这个点数据的变化程度越大(不同空间点的比较)。同样空间系数固定时,时间系数变化越大,不同时刻数据变化越大(不同时间点的比较)在这样理解的基础上空间系数分布和时间系数曲线图就好看了。而且该方法与物理意义不对应,纯是数学方法,有上面的表达式,也好理解了。