加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

全文索引、目录索引和元搜索三种搜索引擎蜘蛛的区别

(2018-11-04 15:14:16)
分类: 网站优化
沙皇站长今天来聊下搜索引擎蜘蛛的分类,按照抓取内容的不同可以将搜索引擎蜘蛛分为以下三大类。

一、全文索引

全文捜索引擎从网站提取信息,建立网页数据库。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(如Google一般是28天),捜索引擎主动派出蜘蛛程序,对一定IP地址范围内的互联网网站进行检索,一旦发现新的网站会自动提取网站的信息和网址并将其加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址。搜索引擎在定时间内(2天到数月不等)向网站派出蜘蛛程序,扫描网站并将有关信息存人数据库以备用户查询。后来,搜索引擎索引规则发生了很大变化,主动提交网址并不能不保证网站进入搜索引擎数据库,因此,最好的办法是多获得一些外部链接,让搜索引擎有更多的机会找到并自动收录网站。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻。如果找到与用户要求内容相符的网站,便采用特殊的算法(通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量)计算出各网页的相关度及排名等级,然后根据关联度的高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。


二、目录索引

目录索引也称“分类检索”,是因特网上最早提供WWW资源査询的服务。它主要通过搜集和整理因特网的资源,根据搜索到的网页内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无须输入任何文字,只要根据网站提供的主题分类目录层层点击进入,便可查到所需的网络信息资源。

目录索引虽然有搜索功能,但在严格意义上它不是真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不需依靠关键词(Keyword)进行查询。

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站信息后,目录编辑人员会亲自浏览网站,然后根据一套自定的评判标准至编辑人员的主观印象决定是否接纳该网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能成功登录。而目录索引对网站的要求则高得多,有时登录多次也不一定成功。尤其像Yahoo这样的超级索引,登录更是困难。

此外,在登录搜索引擎时,一般不用考虑网站的分类问题,而在登录目录索引时则必须将网站放在一个最合适的目录(Directory)下。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,我们拥有更大的自主权而目录索引则要求必须手工填写网站信息,而且还有各种各样的限制。更有者,如果工作人员认为我们提交网站的目录、网站信息不合适,可以随时对其进行调整,当然事先是不会和我们商量的。

备注:搜索引擎与目录索引有相互融合渗透的趋势。一些纯粹的全文搜索引擎也提供目录搜索,如Google就借用Open Directory提供分类查询,而像Yahoo这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如中国的搜狐、新浪、网易等。而另外一些则默认提供网页搜索,如Yahoo。这种搜索引擎的特点是准确率比较高。

三、元搜索

元搜索引擎(METASearch Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有Infospace、Dogpile、Vivisimo等,中文元搜索引擎中具有代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定规则将结果重新排列组合,如 Vivisimo。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有