【转】文本聚类有哪些应用？_悠悠

http://blog.sina.com.cn/u/1879315293

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

【转】文本聚类有哪些应用？

(2011-07-21 10:15:21)

标签：

杂谈

分类：数据挖掘

文本聚类有如下应用：

1. 文本聚类可以作为多文档自动文摘(Multiple Document Summarization, SDS)等自然语言处理(Natural Language Processing, NLP)应用的预处理步骤。比较典型的例子是哥伦比亚大学开发的多文档文摘系统Newsblaster。Newsblaster将每天发生的重要新闻文本进行聚类处理，并对同主题文章进行冗余消除、信息融合、文本生成等处理，从而生成一篇简明扼要的摘要文档；

2.文本聚类可用于对搜索引擎的结果聚类，便于使用户定位到所需要的信息。Hua-Jun Zeng等人提出了对搜索引擎结果进行聚类的学习算法。典型的系统则有vivisimo（http://www.vivisimo.com）和 infonetware（http://www.infonetware.com）等。系统允许用户输入检索关键词，而后对检索到的文档进行聚类处理，并输出各个不同类别的简要描述，从而可以缩小检索的范围，用户只需关注比较有希望的主题。另外这种方法也可以为用户二次检索提供线索；

3.文本聚类可用于用户兴趣模式挖掘。将聚类算法用于对用户感兴趣的文档（如用户浏览器cache中的网页）聚类，从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务；

4. 聚类技术可用于改善文本分类的结果。如俄亥俄州立大学的Y.C. Fang, S. Parthasarathy和F. Schwartz等人的工作。

5.文本聚类技术还可应用于数字图书馆服务。比如通过SOM神经网络等方法，可以将高维空间的文档拓扑保序地映射到二维空间，使得聚类结果可视化，并且便于理解，典型的系统如SOMlib系统；

6.文本聚类也可应用与文档集合的自动整理。例如Scatter/Gather是一个基于聚类的文档浏览系统。而微软的Ji-Rong Wen等人则利用聚类技术对用户提出的查询记录进行聚类，并利用结果更新搜索引擎网站的FAQ。关键词：文本聚类自动文摘结果聚类数字图书馆关键词：文本聚类相似度机器学习人工标注

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：[转载]数据挖掘与云计算—专访中科院何清博士

后一篇：【转】什么是能力？

新浪BLOG意见反馈留言板　欢迎批评指正