网络营销教程—SEO 第二章 搜索引擎(第三节)
(2008-11-25 14:26:05)
标签:
互联网搜索引擎索引库seo网络营销it |
分类: 网络营销教程-SEO |
张栋伟
第三节
目前的搜索引擎不可能做到“博大精深”,这是因为它们是矛盾的两个方面,不可兼得。随着互联网信息的急剧增长,关于搜索引擎的“博大”越来越难实现,从利用信息的角度也完全没有必要,“精深”反而是人们越来越重视并追求的指标。另外,多层次的搜索服务体系远远没有建立起来,传统搜索重导航作用、轻精准信息服务,就像行人问路,行人需要的不仅仅是方向,还要知道具体的路标指示。
一、搜索引擎的技术流派
搜索引擎的技术流派可以分为三类:第一类是利用计算机程序自动进行信息处理的自动化派,其典型代表是Google以及Ghunt等;第二类是以人工进行信息分类处理为主的人力加工派,这方面的典型代表是早期的Yahoo,正在兴起的Web
2.0、网摘等社区化搜索是这一流派的新发展;第三类是强调智能化人机交互、协同的融合派,目前英文Yahoo的搜索引擎在发展这方面的技术,MSN
Live也显示出其更加重视融合性的技术,联索IFACE专业搜索融入了用户知识和机器学习方法,可以看做是融合派在中文搜索引擎方面的典型代表。
二、
1.全文搜索引擎
是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条件检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。
2.
主要以人工方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。用户完全可以不用关键词(Keywords)进行查询,仅靠分类目录也可找到需要的信息。
3.元搜索引擎
是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是借助于其他搜索引擎进行工作,没有自己的索引库,它是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
4.自动分类技术
是计算机根据分类标准自动将文档归类到已经存在的类别体系(或者主题)下的某一个具体类别中。目前自动分类并不能完全代替人工所做的相关工作,只是提供了一个花费较少的可选择方法。
5.文本聚类技术
是利用计算机将已经存在的大量文本(很多文档)进行分组的全自动处理过程。聚类可以提供对一个大的文本集内容的概况了解,可以识别隐藏的共同点,可以便捷地浏览相近或相关的文本
6.网文摘录
又称网摘,它具有对内容页的收藏、分类、摘录、加注标签、保存到信息库、信息库共享等功能,主要是为了满足用户阅读网络内容和信息知识积累的需要。