加载中…
正文 字体大小:

特征选择方法笔记

(2012-08-29 10:06:29)
标签:

分类器

信息测度

穷举法

筛选器

特征选择

杂谈

分类: 模式识别
1、为什么要做特征选择
在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。
2、特征选择的确切含义
将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。
3、特征选取的原则
获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点
4、特征选择需要考虑的问题
a、确定选择算法,在允许的时间内以最小的代价找出最小的、最能描述类别的特征组合,b、确定评价标准,衡量特征组合是否是最优,得到特征获取操作的停止条件。
5、特征获取方法
a、按照特征子集的形成方式可以分为三种,穷举法(exhaustion)、启发法(heuristic)和随机法(random)。穷举法需要遍历特征空间中所有的特征组合,所以方法复杂度最大,实用性不强;启发法通过采用期望的人工机器调度规则,重复迭代产生递增的特征子集,复杂度略低于穷举法,但是只能获取近似最优解;随即方法分为完全随机方法和概率随机方法两种,对参数设置的依赖性较强。
b、按照特征评价标准来分,根据评价函数与分类器的关心,可以分为筛选器和封装器两种,筛选器的评价函数与分类器无关,封装器采用分类器的错误概率作为评价函数。筛选器的评价函数可以细分为距离测度、信息测度、相关性测度和一致性测度。距离测度用距离来衡量样本之间的相似度,信息测度用利用最小不确定性特征来分类。
6、特征获取方法的选取原则
a、处理的数据类型
b、处理的问题规模
c、问题需要分类的数量
d、对噪声的容忍能力
e、无噪声环境下,产生稳定性好、最优特征子集的能力。
本文参考王娟等《特征选择方法综述》论文。

阅读 评论 收藏 转载 喜欢 打印举报
已投稿到:
  • 评论加载中,请稍候...
发评论

       

    验证码: 请点击后输入验证码 收听验证码

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有