加载中…
正文 字体大小:

文本分类---特征提取

(2008-03-22 20:50:06)
标签:

特征提取

it

分类: 文本挖掘相关
    用于表示文本的特征理论上应该满足以下几点:数量上尽量少;出现频率适中;冗余少;噪音少;与其所属类别语义相关;含义尽量明确。最简单的文本特征表示就是单个的词(term或者word),因为词可以看作是文本的天然属性,但是我们同时又知道,一篇文档包含很多的词,而且有些出现频率高却并不相关或者说是噪音数据,这就是特征提取所要做的工作:找出有用的特征集,剔除无用的特征集,这样既可以因为无用特征集被剔除使得特征集得到压缩从而提高分类效率,同时还因为去除了无用特征集对分类的干扰提高了分类精度。下面介绍几种常见的特征提取的方法。
    IG(Information gain)即信息增益,IG值代表了特征在训练集上的分布情况它通过统计特征在各个类别中的出现次数来计算。该值越大说明分布越均匀,越有可能出现在较多的类别中,该特征在训练集中的类别上分布越集中,该值越小,说明分布比较倾斜,词出现在较少的类别中。IG方法提取IG值较高的特征,因为分布越集中的特征越重要。文本分类---特征提取
    MI(Mutual information)互信息值它通过计算特征t和类别c间的相关性来完成提取,MI方法提取互信息值较高的特征其基本思想为与类别相关性越高的特征越重要。假设文档集合C分为K类,记为文本分类---特征提取 ,特征项文本分类---特征提取 对于文档类别文本分类---特征提取 的互信息文本分类---特征提取 的计算公式如下: 文本分类---特征提取        
    CHI具有和MI方法基本相似的思想,同样通过计算特征t和类别c间的依赖程度来完成提取,但二者的计算细节不同,CHI作了更多地考虑。有种看法认为CHI是一种正规化了的MI。统计评估函数被定义为:

文本分类---特征提取

其中概率文本分类---特征提取 是指对于文本文本分类---特征提取 ,特征词条文本分类---特征提取 不存在其中,但文本分类---特征提取 属于类文本分类---特征提取 中,文本分类---特征提取 是训练集的势。直观地看,文本分类---特征提取 的值越小,说明特征词条文本分类---特征提取 关于类文本分类---特征提取 的独立程度越高,因此,我们选择那些文本分类---特征提取 值最大的特征词条。
   DF(Document frequency)即文档频率,指训练集中包含该特征的文本总数。所谓文本包含特征是指这个特征在该文本中出现,忽略其在文本中的出现次数。DF方法提取DF值较高的特征,它的目的是去掉在训练集上出现次数过少的特征,保留出现达到一定次数,具有一定影响力的特征,在各个特征提取方法中DF方法的计算是最简单的。




 

0

阅读 评论 收藏 转载 喜欢 打印举报
已投稿到:
  • 评论加载中,请稍候...
发评论

       

    验证码: 请点击后输入验证码 收听验证码

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有