发博文
个人资料
青铜
青铜
  • 博客等级:
  • 博客积分:18
  • 博客访问:49
  • 关注人气:0
访客
加载中…
好友
加载中…
评论
加载中…
留言
加载中…
分类
博文
(2009-02-15 16:58)
标签:

杂谈

爬虫技术研究综述
引言 
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: 

(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。 
(2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 
(3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

就这么慢慢成长
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有