加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

搜索的庖丁之刃(下)

(2008-01-01 15:30:20)
标签:

微软亚洲研究院

成果展示

互联网搜索组

搜索技术

最新技术

分类: 技术
         未来的搜索如何弥补PageRank未了的缺憾?当搜索从页面级晋升为区块级,无疑将带来一场效率的革命。
 

  作者:原《互联网周刊》记者李洋

 
(续上文)
 

  一个网页就犹如一头牛。它有头、有尾,可以划分为不同的信息区域。当你浏览一个页面时,往往会将目光锁定在最重要的区域中,而不是先浏览导航、广告、版权信息等信息块。沿着这个思路,就可以进一步提升搜索的精准度。

 
速度提升
 

  这项技术的诞生对于搜索而言是一个根本性的改变。它除了在链接分析上,能够弥补Google PageRank算法的缺憾外,还能够在图片搜索等领域获得有效应用。在此之前,图片搜索在页面中抓取一个图片后,还要在页面中寻找解释这一图片的上下文说明。而有了这个技术则可以大大提升效率,可以直接在该图片出现的块里取说明文字,并且根据图片来自的块重要性,来决定这个图片的重要性。此外,在做类似的信息抽取的时候,都可以用到这项技术。

 

  从2001年起,文继荣研究员带着两个学生总花费了两年多的时间研究出了这项技术。实际上,在最初的想法确定后,他们在几个月内就写出了算法。但这一算法在实际测试时经常会“跑不通”。“你都想象不到,有的网页内部的代码嵌套居然多达百层。”文继荣笑着说,“但这就是互联网上的实际情况。不管一个网页写得有多烂,我们的算法也要照顾到。”在接下来的时间里,他们在百万级页面级别对该算法进行了测试、完善。最终,当微软在国际学术会议上发布这一技术时,引发了不小的轰动。

搜索的庖丁之刃(下)

  但当它走近实际应用时,又产生了新的问题——速度太慢。通常浏览器要渲染一个网页需要几百毫秒。这时间看似很短,但当你要同时处理的页面是几十亿、上百亿时,这个速度就变得无法容忍了。为配合微软总部将该技术应用在其搜索引擎中,产品部门提出了将时间缩短至数毫秒以内的要求。这不得不说是一项挑战。压力之下,微软的研发人员想到了一个解决办法:抛开IE浏览器的渲染引擎,自己编写一个相对简单而精炼的渲染引擎。因为这项技术中,仅需要通过渲染引擎获得其输出的数据结构,比如长度宽度、坐标等,而并不需要考虑最终的页面渲染效果,而对JavaScript等脚本也一概过滤。通过这一方式,每个页面的平均处理时间被成功地缩短至2毫秒以内。

 

  还有什么是不能实现的吗?只要你想得到。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有