加载中…

加载中...

主成分分析(PCA)小结

转载 2016-04-02 02:47:19
标签: 因子载荷 主成分得分 主成分分析 pca

也可到楼主自己编写的网站上去查看更多内容,网址:http://www.omicsolution.org/wu-kong-beta-linux/main/

在分析自己的数据过程中经常使用到主成分分析,现在就自己查找的资料与一些体会记录如下,望与大家交流学习(建了个群,交流学习哈: 553621380。)。

         一.主成分分析原理简介

主成分分析的主要思想就是降维,即将高维的数据用低维的数据表示出来,并且使其丢失的信息最少。在《医学统计学》一书中介绍的比较详细,其数学模型摘录如下:

这里强调几点:

1.    目标是寻找原始指标X1,X2,X3,…,Xm的线性组合Z1,Z2,Z3,…,Zm

2.    各个Zi之间是互不相关的,即Z1Z2,Z3,…,Zm任何一个都不相关,其他以此类推;

3.    每一个Zi(即Z1,Z2,Z3,…,Zm)都叫主成分,每一个主成分对应的都有一个方差,我们的目标是保留方差最大的那几个主成分,可以称之为主要的主成分(即主成分中的主成分~~),也就是我们最终要展现出来的主成分。

在数学模型中,我们强调,要找到方差最大的那几个主成分,那么为什么要找方差最大的主成分呢?这里面就有一个“PCA理论基础---最大方差理论,其主要观点认为:在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。(详细请见:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html)。所以方差越大,其所能解释的信息就越多,贡献就越大。

       二. 主成分计算:

       我们计算的数据通常有两种形式,一种是原始数据,及直接采集得到的数据(数据1);一种是已经计算了各个指标之间的相关性系数,得到的一个相关性系数矩阵(数据2)。

数据1
数据2

这两者在使用R语言中的函数princomp()时稍微有点不同,使用时注意下就可以了。另外,对于像数据1这样的数据,R语言中的函数已经对数据进行了标准化处理,所以你可以不用再对你的原始数据进行标准化处理。

主成分的贡献率是指某个主成分的方差vi与所有主成分的方差之和的比值,即vi/(v1+v2+…+vm);累积贡献率是指几个主成分的贡献率之和。一般在选取主成分个数时有下面的2个原则(《医学统计学》):

因子载荷是指:

主成分得分是指:

对样品进行综合评价,这个可以用于各个样品之间的排序:

建了个群,交流学习哈: 553621380。



阅读(0) 评论(0) 收藏(0) 转载(0) 举报/Report

评论

重要提示:警惕虚假中奖信息
0条评论展开
相关阅读
加载中,请稍后
璇楃洓
  • 博客等级:
  • 博客积分:0
  • 博客访问:61,714
  • 关注人气:0
  • 荣誉徽章:

相关博文

推荐博文

新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有