加载中…
个人资料
一个人的只言片语
一个人的只言片语
  • 博客等级:
  • 博客积分:0
  • 博客访问:6,483
  • 关注人气:4
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

线性判别分析

(2009-04-30 21:48:45)
标签:

杂谈

LDA(Linnear Discriminant analysis)

 

LDA和FLD(Fisher linear discriminant)在统计中都是用来寻找特征的某种线性组合,该组合变量可以作为分类的依据,也可以用于数据集的将维处理,为进一步的分类作准备。

LDA与方差分析 ANOVA及回归分析都是用其他特征或测量值的线性组合来表达一个因变量。不同的是,LDA中涉及的因变量是“分类变量”(如类标号),而后两者都是指具体的数值。

LDA、主元分析( principal component analysis)和因子分析( factor analysis )都致力于用变量的线性组合来解释数据。但是 LDA 更侧重于对不同类数据之间的差别进行建模,而 PCA 却没有考虑类之间的区别,相比于相似性来说,因子分析考虑更多的是类间区别。判据分析(Discriminant analysis)和因子分析有一点是明显不同的:独立变量和因变量必须严格区分。

  LDA在处理类属变量时可以由Discriminant Correspondence Analysis 来替代。

 

LDA两类分类器

  设观测向量x (也被称作特征、属性、变量、测量值等) 对于对象或事件的每一个采样的所属类y都是已知的。这样的样本集称作训练集。所谓的分类问题就是指对于相同分布的样本x(可以是训练集以外的样本),都能预知其所属的类。

假设条件概率密度函数 和都是正态分布的,具有相同的满秩协方差矩阵Σy = 0 = Σy = 1 = Σ

于是, 依赖于点积 ,其中

 

也就是说,输入x 所属的类就完全由已知观测值所决定的这样一

也就是说,输入x 所属的类就完全由已知观测值所决定的这样一个线性函数决定。

  对于协方差矩阵不相同的情形,采用二阶判别分析

 

Fisher线性判别

FLD和LDA在实际应用中往往是可以互换的,尽管Fisher的最初的文章《The Use of Multiple Measures in Taxonomic Problems》 (1936) 和LDA略微有些差别:没有做出类的正态分布和相同的协方差矩阵这样的假设。

假设两类观测值的均值为 ,协方差矩阵为Σy = 0y = 1。那么特征的线性组合 的均值就是 ,而方差为 ,其中i = 0,1。Fisher定义了这样一个表达可分性的比值,由类间方差比上类内方差得到:

?/P>

这种度量和信噪比是类似的。当最大可分时满足:

 
当满足LDA的假设条件时,上式和LDA是等价的。

实际应用

在应用中,各类的均值和方差是未知的。但是这些都是可以通过训练集估计求得。采用最大似然估计或最大后验概率准则,用估计值来取代前面等式中的真实值。尽管协方差的估计是在某种意义下最优的,但并意味着其所有可能的取值都能得到最佳的分类效果,即使正态分布的假设是成立的。
LDA和Fisher判别法在实际应用的过程中,实际处理的观测变量超过样本的数目。在这种情况下,协方差阵是奇异的,不能直接求逆。当然,有许多方法可以解决这个问题。

1、      广义逆矩阵
2、      正则判别分析,即在现有样本的基础上,通过增加白噪声的方法构造新的样本,这些新的样本并没有真正意义上的参加计算,在数学上可以得到协方差阵:
       Cnew = C + σ2I

    其中I为单位阵,σ 是所加噪声的标准差,并被称作是正则参数。选择合适的σ使得训练集成为最佳的交互证实集。获得的新的方差矩阵是可逆的,可以用来代替上式中的方差矩阵。
    同样,在许多的应用场合中,LDA并不太适用。LDA和Fisher判别法可以通过核函数扩展为非线性分类的情形。通常是将原始观测变量映射到更高维的非线性空间。非线性空间的线性分类和线性空间的非线性分类是等价的。一个典型的例子就是Fisher核判别法。
    LDA可以扩展为多类判别方法,其中c是类属变量,可以取N个值,而不是两个。类似的,条件密度函数是正态的,具有相同的方差。的N个投影值对而言,是一个充分统计量,是由N个均值生成的子空间,方差矩阵的逆矩阵的仿射投影。这些投影的求解可以看作是广义特征值的求解问题。其中分子是各个类的方差矩阵,分母是所有类共有的方差矩阵。

 

 

原文:http://www.answers.com/topic/linear-discriminant-analysis

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有