几种常见模式识别算法整理和总结_manifold_新浪博客

新浪博客

加载中…

http://blog.sina.com.cn/u/1748215007

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

几种常见模式识别算法整理和总结

(2011-04-11 08:19:06)

标签：

杂谈

几种常见模式识别算法整理和总结



这学期选了门模式识别的课。发现最常见的一种情况就是，书上写的老师ppt上写的都看不懂，然后绕了一大圈去自己查资料理解，回头看看发现，Ah-ha，原来本质的原理那么简单，自己一开始只不过被那些看似formidable的细节吓到了。所以在这里把自己所学的一些点记录下来，供备忘，也供参考。 1. K-Nearest Neighbor K-NN可以说是一种最直接的用来分类未知数据的方法。基本通过下面这张图跟文字说明就可以明白K-NN是干什么的 http://www.robotsky.com/d/file/ZhiN/MoS/2011-02-23/d62bb970ac102c34a4765ddc0153dc5d.png 简单来说，K-NN可以看成：有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据里的每个点求距离，然后挑离这个训练数据最近的K个点看看这几个点属于什么类型，然后用少数服从多数的原则，给新数据归类。一个比较好的介绍k-NN的课件可以见下面链接，图文并茂，我当时一看就懂了 http://upload.wikimedia.org/wikipedia/en/thumb/1/15/GaussianScatterPCA.png/639px-GaussianScatterPCA.png 那么如何求出这个长轴和短轴呢？于是线性代数就来了：我们求出这堆数据的协方差矩阵(关于什么是协方差矩阵，详见本节最后附的链接)，然后再求出这个协方差矩阵的特征值和特征向量，对应最大特征值的那个特征向量的方向就是长轴(也就是主元)的方向，次大特征值的就是第二主元的方向，以此类推。关于PCA，推荐两个不错的tutorial: (1) A tutorial on Principle Component Analysis从最基本的数学原理到应用都有，让我在被老师的讲课弄晕之后瞬间开悟的tutorial: http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf (2) 里面有一个很生动的实现PCA的例子，还有告诉你PCA跟SVD是什么关系的，对编程实现的帮助很大(当然大多数情况下都不用自己编了): http://www.math.ucsd.edu/~gptesler/283/pca_07-handout.pdf 4. Linear Discriminant Analysis LDA，基本和PCA是一对双生子，它们之间的区别就是PCA是一种unsupervised的映射方法而LDA是一种supervised映射方法，这一点可以从下图中一个2D的例子简单看出 http://www.robotsky.com/d/file/ZhiN/MoS/2011-02-23/5dc4aab4e77c3d48e037b55b0ec25a66.png 图的左边是PCA，它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据内部的分类信息。因此，虽然做了PCA后，整组数据在表示上更加方便(降低了维数并将信息损失降到最低)，但在分类上也许会变得更加困难；图的右边是LDA，可以明显看出，在增加了分类信息之后，两组输入映射到了另外一个坐标轴上，有了这样一个映射，两组数据之间的就变得更易区分了(在低维上就可以区分，减少了很大的运算量)。在实际应用中，最常用的一种LDA方法叫作Fisher Linear Discriminant，其简要原理就是求取一个线性变换，是的样本数据中“between classes scatter matrix”(不同类数据间的协方差矩阵)和“within classes scatter matrix”(同一类数据内部的各个数据间协方差矩阵)之比的达到最大。关于Fisher LDA更具体的内容可以见下面课件，写的很不错~ http://www.csd.uwo.ca/~olga/Courses//CS434a_541a//Lecture6.pdf 5. Non-negative Matrix Factorization NMF，中文译为非负矩阵分解。一篇比较不错的NMF中文介绍文可以见下面一篇博文的链接，《非负矩阵分解：数学的奇妙力量》 http://www.robotsky.com/d/file/ZhiN/MoS/2011-02-23/a974cb2e52a33c09a274432dc9df10e0.png 当然上面所提的方法只是其中一种而已，在http://spinner.cofc.edu/~langvillea/NISS-NMF.pdf中有更多详细方法的介绍。相比于PCA、LDA，NMF有个明显的好处就是它的非负，因为为在很多情况下带有负号的运算算起来都不这么方便，但是它也有一个问题就是NMF分解出来的结果不像PCA和LDA一样是恒定的。 6. Gaussian Mixture Model GMM高斯混合模型粗看上去跟上文所提的贝叶斯分类器有点类似，但两者的方法有很大的不同。在贝叶斯分类器中，我们已经事先知道了训练数据(training set)的分类信息，因此只要根据对应的均值和协方差矩阵拟合一个高斯分布即可。而在GMM中，我们除了数据的信息，对数据的分类一无所知，因此，在运算时我们不仅需要估算每个数据的分类，还要估算这些估算后数据分类的均值和协方差矩阵。。。也就是说如果有1000个训练数据10租分类的话，需要求的未知数是1000+10+10(用未知数表示未必确切，确切的说是1000个1x10标志向量,10个与训练数据同维的平均向量，10个与训练数据同维的方阵)。。。反正想想都是很头大的事情。。。那么这个问题是怎么解决的呢？这里用的是一种叫EM迭代的方法。具体使用方法可以参考http://neural.cs.nthu.edu.tw/jang/books/dcpr/doc/08gmm.pdf 这份台湾清华大学的课件，写的真是相当的赞，实现代码的话可以参考： 1. 倩倩的博客http://www.cnblogs.com/jill_new/archive/2010/12/01/1893851.html 和 2. http://www.cs.ru.nl/~ali/EM.m 当然 Matlab里一般也会自带GMM工具箱，其用法可以参考下面链接： http://www.mathworks.com/help/toolbox/stats/gmdistribution.fit.html

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[转载]关于SVD的一些参考文献

后一篇：[转载]图像处理——国外学术期刊因子

新浪BLOG意见反馈留言板　欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2022 SINA Corporation, All Rights Reserved

新浪公司版权所有