浏览器log用于搜索的本质_白硕SH

http://blog.sina.com.cn/u/1922397344

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

浏览器log用于搜索的本质

(2012-08-30 09:47:23)

标签：

it

杂谈

在我发表了《3B大战的启示》一文后，一些江湖上的技术高手对我说，我描述的那种元搜索现象虽令人不屑，但在现实中是不使用的。除了道义层面的原因之外，多网站同步等待和实时整合耗时等技术原因，会使用户体验变得很差。实际上，时代不同了，如今完全可以有更好的技术方案。

听下来，方案大体是这样的：如果你是浏览器厂家，你可以使用浏览器log。当搜索用户向任何一个搜索引擎发送了搜索指令之后，在传回的结果页面上再行点击（“点出”），浏览器不仅记录下来了你去哪儿，同时也记录下来了你去的那个地方与前面搜索关键词的关联。只要把这个信息传回浏览器厂商自家的搜索引擎，就可以提高搜索效果。

使用浏览器log和使用浏览器本地缓存的搜索结果页面的差别，有这么几个：第一，传输的数据量小了很多；第二，无关信息噪音信息得到了极大的过滤；第三也是最重要的，用户的“点出”动作是在返回结果的基础之上增加了用户自身的选择和判断，相当于给出了“相关反馈”。

虽然没传输原来的结果页面，但是这个相关反馈单独拿来用，质量已经优于结果页面了，更何况浏览器厂家可以八方汇聚——任何其他用户对同一组关键词的相关反馈都会汇聚在服务器端，相当于利用群体智慧的“众包的”相关反馈。这样得到的相关反馈集合，当然比结果页面更加精纯。

好了。技术方案讲完了。拍手叫好之余，我们来分析一下它的实质。

无论是用户首次发起、结果被服务器用于受理后续搜索请求的元搜索，还是服务器主动发起、结果被服务用于受理后续搜索请求的元搜索，都有一个特点，即元搜索在先、离线，搜索服务在后，在线，但后者使用前者积累的缓存数据。这两种，都属于搜索与元搜索结合，实时与离线结合的范畴。我的观点是，这种技术路线有它独特的技术含量，有增值。但是，缓存使用带来的保鲜性管理问题，用户数据使用带来的法律问题，其他搜索引擎智力成果使用带来的法律问题都一个不少。合理分配各方的利益，是解决的关键。

比起我讲到的那些方案，这个使用浏览器log的方案，本质上并没有脱离“搜索与元搜索相结合、实时与离线相结合”的范畴。源搜索引擎（注意！此“源”非彼“元”）对于查准率的贡献是主要的，没有初次的返回结果，用户的相关反馈就无从谈起。虽然在传输上回避了直接使用初次的返回结果，但促使用户做出自己的相关反馈的最初信息来源，是源搜索引擎的返回结果列表。巧妇难为无米之炊，用户的相关反馈虽然形式上独立于源搜索引擎的返回结果列表，但是后者构成前者的“巨人的肩膀”。假如不给源搜索引擎以相应回报，反而分散其流量，用“过河拆桥”来形容这种做法，并不为过。

用户本人对于相关反馈的选择，也对最终的查准率做出了贡献。一个用户的贡献度或许微小，为同一组关键词提供相关反馈的用户群体的贡献是难以估量的。而且，当用户群体扩大到足够规模时，这种众包行为对查全率也有不可低估的贡献。用户的智力活动沉淀为用户的访问记录，用户的访问记录原本是用户的私密数据。而今，这样的数据在用户不知情的状态下，被汇聚起来形成一种商业服务，但在利益分配中并没有显性地给用户以回报。这在法律上是怎样一种情形，相信大家都会做出判断。

汇聚后的用户相关反馈，仍然是一种离线数据。这种离线数据本质上仍然是元搜索的缓存，只不过是通过众包过滤后的缓存。这种缓存一样要有保鲜期管理机制，当然比起爬虫爬下来的内容的保鲜期管理，相关反馈的保鲜期管理要轻便许多。

另外，正像一些朋友所指出的，这种方法只对热词效果明显。遇到长尾查询，还是需要真功夫，爬虫、索引、排序，一个也少不了。

综上所述，这种基于浏览器log优化搜索效果的方案，仍然属于“搜索和元搜索相结合、实时与离线相结合”的范畴。纯从技术上讲它有精妙之处。但它也要面对一些明显的技术问题和隐含的法律问题。不管事实如何，不管国外如何，在竞争中，个人建议还是慎用。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：3B大战的启示

后一篇：关于基于规则方法的反思【连载1】

新浪BLOG意见反馈留言板　欢迎批评指正