加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Google的工作过程

(2007-10-10 05:38:12)
标签:

it/科技

google

pagerank

超链接

超文本匹配分析

搜索营销

分类: 网络营销
 

我们在使用搜索引擎的过程中,会注意搜索引擎总是能在零点几秒的时间内返回几百万项符合的搜索结果

,真是迅雷不及掩耳,我们来看看Google是如何做到这些的.
     搜索引擎都有自己的蜘蛛程序(这个说法很形象吧~~),Google也一样,他们日夜不停的劳作在互联网上,

从这个链接爬到下一个链接.每到一个网页,蜘蛛程序就会分析网页内容(分析过程主要是利用Google自己

的PageRank 技术和超文本匹配分析),并把结果存入到索引服务器(所以事实上我们获得的搜索结果是时

刻都在变化的),这个索引就和有些书本后面的索引类似,了解过数据结构的人对这个会更有感觉.当有搜索

请求进来时,Google会做如下处理:
搜索请求(关键词)------>索引服务器------>文档服务器------返回结果.
Google独创性的把所有的索引分别存在上万台服务器之上(传说Google在全球有多达45万台服务器),而有

些搜索引擎则是把索引结果存在少数几台大型服务器之上.这么做是非常有道理的,类似我们翻1000页的

字典查字一样,是一个查字非常快的人一个查快呢,还是1000个人每人查一页的速度快呢?索引服务器返回

的结果迅速传给文档服务器,由文档服务器对索引结果处理并排序,把生成搜索结果反馈给用户.比如我们

查找"长征遵义会议",索引服务器先查到"长征"出现在第8 14 56 93 108页面之上,再查“遵义会议”出现在

第13 56 108页面之上,那就把第56 108两个页面传送给文档服务器做排序工作,这样我们就能在非常短

的时间获得搜索结果.
下面Google官方对自己独特技术的描述:
PageRank 技术:通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够

对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的

链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估

该页的重要性。
此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样

,它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜

索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预

或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。

超文本匹配分析:Google 的搜索引擎同时也分析网页内容。然而,Google 的技术并不采用单纯扫描基

于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体

、分区及每个文字精确位置等因素。Google 同时还会分析相邻网页的内容,以确保返回与用户查询最相

关的结果。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有