[转载]【T】排序--3--CA对应分析Correspondence analysis

标签:
转载 |
分类: 算法、方法 |
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,也叫做相互平均法(Reciprocal averaging, RA),是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。CA/RA的模型为单峰模型。因此,它们的分析结果一般优于PCA,在样地数据参数较大的情况下尤为如此.
通俗点说,就是将行的编号以及列的编号在一个二维坐标轴中做出相应的点,可以看到行编号以及列编号对应的距离关系来看行之间,列之间,行与列之间的关系,距离越近,关系越密切,同时根据特征值,来判断某个点对整个数据的贡献情况。
Inertia-惯量, 为每一维到其重心的加权距离的平方。它度量行列关系的强度。
Singular Value-奇异值(是惯量的平方根),反映了是行与列各水平在二维图中分量的相关程度,是对行与列进行因子分析产生的新的综合变量的典型相关系数。
Chi Square-就是关于列联表行列独立性c2检验的c2统计量的值,和前面表中的相同。其后面的Sig为在行列独立的零假设下的p-值,注释表明自由度为(4-1)×(3-1)=6,Sig.值很小说明列联表的行与列之间有较强的相关性。
Proportion of Inertia-惯量比例,是各维度(公因子)分别解释总惯量的比例及累计百分比,类似于因子分析中公因子解释能力的说明。
同样我们用虚拟例子来说明计算过程。假定我们调查得到5个样方4个种的数据矩阵:
http://s6/mw690/001SXUocgy6JV7txT93b5&690analysis" TITLE="[转载]【T】排序--3--CA对应分析Correspondence
http://s13/mw690/001SXUocgy6JV7tCIgc1c&690analysis" TITLE="[转载]【T】排序--3--CA对应分析Correspondence
然后,同第一轴一样进行标准化,重复迭代过程。因为这一组初始值选的比较佳,只进行三次就可以得到稳定的结果。
样方在第二轴上的排序值为:
-1.073,1.393,1.751,-0.262,0.348,(λ=0.598)。
种类在第二轴上的排序值为:
-0.647,1.045,0.836,0.632。
http://s8/mw690/001SXUocgy6JV7tHq5x17&690analysis" TITLE="[转载]【T】排序--3--CA对应分析Correspondence
CA/RA的模型是非线性的,排序明显优于PCA,这一点在研究中得到了广泛的证实。因此,使用较为普遍。但它有一个重大缺点,就是CA/RA的第二排序轴在许多情况下是第一轴的二次变形,即所谓的“弓形效应”(Arch effect)或者“马蹄形效应”(horse—shoe effect)。如图9. 16所示, 18个样方在第二轴上的坐标与第一轴的坐标是二次曲线关系,这是由于正交化的必然结果(Gauch 1982)。弓形效应也可以从图9.14中明显的看出来。弓形效应对排序的精度有所影响(Hill和Gauch 1980;Gauch 1982;Greig—Smith 1983)。
参考资料:
http://pan.baidu.com/s/1jGJtCzW
具体算法详解:
http://pan.baidu.com/s/1ntJTzNb
http://pan.baidu.com/s/1kTupcsJ