加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【转】文本聚类有哪些应用?

(2011-07-21 10:15:21)
标签:

杂谈

分类: 数据挖掘

文本聚类有如下应用:

1. 文本聚类可以作为多文档自动文摘(Multiple Document Summarization, SDS)等自然语言处理(Natural Language Processing, NLP)应用的预处理步骤。比较典型的例子是哥伦比亚大学开发的多文档文摘系统NewsblasterNewsblaster将每天发生的重要新闻文本 进行聚类处理,并对同主题文章进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档;

2.
文本聚类可用于对搜索引擎的结果聚类,便于使用户定位到所需要的信息。Hua-Jun Zeng等人提出了对搜索引擎结果进行聚类的学习算法。典型的系统则有vivisimohttp://www.vivisimo.com)和 infonetwarehttp://www.infonetware.com)等。系统允许用户输入检索关键词,而后对检索到的文档进行聚类处理,并 输出各个不同类别的简要描述,从而可以缩小检索的范围,用户只需关注比较有希望的主题。另外这种方法也可以为用户二次检索提供线索;

3.
文本聚类可用于用户兴趣模式挖掘。将聚类算法用于对用户感兴趣的文档(如用户浏览器cache中的网页)聚类,从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务;

4.
聚类技术可用于改善文本分类的结果。如俄亥俄州立大学的Y.C. Fang, S. ParthasarathyF. Schwartz等人的工作。

5.
文本聚类技术还可应用于数字图书馆服务。比如通过SOM神经网络等方法,可以将高维空间的文档拓扑保序地映射到二维空间,使得聚类结果可视化,并且便于理解,典型的系统如SOMlib系统;

6.
文本聚类也可应用与文档集合的自动整理。例如Scatter/Gather是一个基于聚类的文档浏览系统。而微软的Ji-Rong Wen等人则利用聚类技术对用户提出的查询记录进行聚类,并利用结果更新搜索引擎网站的FAQ 关键词:文本聚类 自动文摘 结果聚类 数字图书馆关键词:文本聚类 相似度 机器学习 人工标注

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有