多元正态分布(multivariate normal distribution)
(2012-04-30 00:57:20)
标签:
杂谈 |
多元正态分布
n个随机变量如果说是服从一个多元正态分布。那么其定义方式有两种:
(1)
(2)
第一种定义的方式更一般,第二种方式局有一点局限性(如V必须要求是正定矩阵)
如果X是服从多元正态分布N(0,V),那么通过线性转化Y=DX得到的变量也是多元正态变量。其分布为N(0, D V D’)。这个可以通过积分的变量替换来得到。
P(y \in B) = P(x \in A)
其中A=T(B) (x=D-1 y,线性映射)
再对
f (X) dX = 1/(sqrt ( (2*pi)^n |V|)) exp(-1/2 (X’ V-1 X) dX
利用x=D-1 y进行变量替换得到
f (Y)dY =|D|-1 1/(sqrt ( (2*pi)^n |V|)) exp(-1/2 (Y’ (D V D-1)-1 Y)dY
= 1/(sqrt ( (2*pi)^n |D V D’|)) exp(-1/2 (Y’ (D V D’ )-1 Y)d Y
(注: |D|-1 为线性转换x=D-1 y 的Jacobian。实际上是dx =|J|dy所引入的)
若联合正态分布中变量之间两两不相关则表示所有的变量是互相独立的。这可以从协差阵V来看出。这个矩阵的第ij个元素表示的是cov(xi,xj)。显然如果cov(xi,xj)=0(i<>j),那么矩阵V只有主对角线上有元素。那么联合密度函数就可以写成N个变量的密度函数的乘积,因而为互相独立。
假设X和Y为两维的联合正态分布E(X |Y)为一个很有意思的问题。
令X1= rho* sigma_X/sigma_Y*Y, X2=X-X1, 其中rho为两者的相关系数,即cov(X,Y)/(sigam_X* sigma_Y), sigma_X和sigma_Y分别表示X和Y的标准差。
以X,Y的均值都为0为例,计算cov(Y, X2)
cov(Y,X2)=E(Y*X2)- E(Y)*E(X2) = E(Y*X2)= [ E(Y* X)- rho* sigma_X/sigma_Y*Var (Y)]= 0 (故互相独立)
E(X | Y)= E(X2+X1 | Y)= E(X2 | Y) + E(X1 | Y)= E(X2)+ rho* sigma_X/sigma_Y*Y= rho* sigma_X/sigma_Y*Y(条件期望实际为Y的线性形式)
如果用E(X | Y)来估计X,那么其误差即为X2= X-rho* sigma_X/sigma_Y*Y。显然这个估计是无偏的。其方差为E(X22)- E(X2) 2 = E(X22)=E([X-rho* sigma_X/sigma_Y*Y] 2)=(1-rho2)*Var(X)