加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

微软人立方--搜索从DOS到WINDOWS的革命

(2008-09-18 11:02:45)
标签:

微软亚洲研究院

人立方

关系搜索

互联网搜索组

搜索技术

杂谈

分类: 技术

作者:《互联网周刊》记者 马荟       

 

         有人的地方就有江湖,人物搜索的江湖越来越热闹了。

 

         2008年7月31日,微软在新浪博客发布了对象级别(Object-level)搜索引擎——人立方关系搜索测试版(http://renlifang.msra.cn),正式入局人物搜索市场。

 

  人物搜索与一般的搜索引擎服务不同,内容只限于和人有关的信息。几乎只要是在互联网上出过名的人,就有可能搜到他或她的人际关系圈、所在的组织机构、头衔、作品信息等等。而除了具体的人名,还可以通过关键词来匹配相关的人物,比如在搜索“最牛”的人时,就会出现具备相关特征的人物结果,如最牛的钉子户某某、最牛的散户某某、最牛的校长某某某等。

 

         从全球的范围来看,目前微软占整个互联网搜索市场的份额还不到10%,从搜索业务得到网络广告销售份额仅为5%,但这并不妨碍微软在谷歌顾及不到的人物搜索上大有作为。 

微软人立方--搜索从DOS到WINDOWS的革命

(聂再清研究员与人立方关系图)

 

  8月中旬,微软发布了“追赶谷歌”战略。微软负责搜索与广告的高级副总裁Nadella表示,新增投资和新的深度搜索技术将帮助微软从搜索市场巨头谷歌手中获取份额。

 

  虽然Nadella并未表明具体的产品和策略,人立方的推出意味着微软在中国搜索市场已经有所行动了,第一个版本的推广有种“润物细无声”的感觉,随着使用人数的增多和用户口口相传,这种后发先至的压力让谷歌、百度无法再熟视无睹。

 

  大玩具

  微软人立方关系搜索目前最大的亮点在于趣味性。

 

  从超过十亿的中文网页中自动的抽取出人名、地名、机构名以及中文短语,并且通过算法自动计算出它们之间存在关系的可能性,同时索引了支持它们之间关系的网页文字。无论是曾经在网上曝光过的亲朋好友,或者人们饭后谈资里出现过的花边绯闻,都可以通过连线产生交集表现出来。经过加工处理的结果用可视化的方式展现,打破了人们常规的从海量重复的搜索结果中捡取有效信息的麻烦。

 

  奥运期间,微软人立方搜索推出中国运动员的“全家福”,这个独具特色的人物关系图像是散落在银河中的星座。每个人以一个圆圈代表,以不同的人物用不同的颜色体现出来,颜色越不同,人物关系关联性越弱。以搜索对象为圆心,从每个圆圈向四周散射出若干连线,发射出的辐射线条多少和半径体现人物的热度和受关注的程度。作为微软亚洲研究院的研究员,聂再清博士把人立方的开发看成一种偶然,并没有过多的考虑商业应用的因素。“微软的Libra学术搜索(libra.msra.cn)做得很成功,后来,为了让这种应用更加大众化,我们在2006年5月份开始做人物搜索。人立方这个名字也是我们一位同事在午饭闲聊时想到的,后来越发觉得贴切。”聂博士对记者说。三人成众,立方代表幂的加乘,而这既体现了六度分隔的无限关系,也预示了未来搜索引擎将吸收网友的力量。

 

  微软这个独具卖点的人物关系图采用的是Adobe的Flash而不是微软自身的Silverlight。聂博士不以为意,“从做研究的角度来考虑,Flash符合当时做程序的人的使用习惯,而且Silverlight当时还只是个Beta版本,没有正式发布。未来实现上,人立方搜索关系图会改回Silverlight。”

 

  绘图谱

  “人立方与传统搜索技术的不同在于传统的搜索引擎不会把人在互联网上的信息总结得那么好。从几十亿的网页中自动地抽取结构化的知识并用于搜索中是一次全新的尝试。将来,我们会把索引网页从10亿扩大到100亿。那时我相信绝大部分的用户都会用人立方来查询与人相关的互联网信息。”聂再清充满信心地说。现在人立方抽取网页中人名的准确率是97%,其中的主要障碍就是搜索对象的身份识别问题,即如何解决重名的现象。

 

  在姚明的关系图谱中,出现了麦克格雷迪和麦蒂两个关系,这两个不同的名字指向的是同一个人。在其中的一条关系线中,姚明和李宇春因为“兄妹”的关系联系了起来,因为“人们都说姚明的妹妹是李宇春。”以孙悦为例,当在搜索框中输入“孙悦”时,关系图中可以看到与孙悦有关的好友、恋人、队友等人际关系。同一个名字指向的是两个现实生活中不同的人,一个是歌手,一个是篮球队员。

 

  针对这种问题,聂再清表示,人立方的第二个版本会解决掉重名人的身份识别难点,抓取信息的时候识别有价值的网页,而不是抓取BBS上的口水帖和虚假信息。

 

  搜商

  以人为对象的信息搜索绕不开隐私权的问题。

 

  2007年9月,Facebook宣布允许非会员公开搜索用户信息。这些信息包括用户的个人档案和照片等,而用户也可以通过改变隐私设置停止搜索引擎索引其信息,现在的校内网也具有这项功能。与微软和雅虎的人物搜索不同,SNS网站提供的人物搜索服务基于用户对自身信息的设置并且可以随时修改,这与抓取网页的搜索方式相比多了些可控制的因素。国内的人物搜索网站还有中国人同学录搜索和百度空间搜人找人等。

 

  Spock网站的用户可以添加信息或对可以搜到人物的照片、tag、网上资料、相关人物等的准确度进行投票,自己可以“认领”这些信息,进行修改。

 

  “人物搜索会更多地帮助那些无心找隐私的人。如果不希望被放上去,可以选择不被检索。”聂再清说。

 

  微软数次提出收购雅虎搜索业务可以证明在搜索市场上的野心。而人物搜索网站不单要解决同名识别等技术问题,还需把一个成熟的市场培养起来,将用户一时兴起的八卦心态转化为稳定的使用习惯。

 

  在人物搜索的市场上,抛开错综的商业布局,微软亚洲研究院最终的目标就是把网页搜索一行行的展示,变成对象搜索平面关系的铺展,用聂再清博士的话说:“用户这种不同的使用体验对于搜索引擎来说,就像DOS系统到Windows的革命一样。”

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有