也谈下一代搜索_周永德

http://blog.sina.com.cn/u/1193635517

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

也谈下一代搜索

(2011-05-12 12:01:23)

标签：

搜索

竞价排名

佩奇

智能搜索

社交搜索

it

周永德/文

搜索引擎发展这么多年，也很难界定是第几代了。各人各家都有不同的年代说法，说来说去，代代也乱了。不足重。

对于动态中的新技术，谁也很难有研究其历史的坐标，更没有预测未来的理论体系。毕竟搜索是最纯粹的互联网服务，可以说是互联网的产物。取之于网，用之于网，不会死亡。之前也写过搜索的一些文章，都是从用户的角度浅谈。

前几天看到一个标题，说什么下一代搜索是直接提供答案，不知怎么回事，我都竟然没有点开看（还不如换个说法，问答网站将推翻搜索网站，正如Google取代了雅虎门户）。不过，现在是谈论这个问题的时候。依稀记得，中国市场，自奇虎从社区论坛搜索开始挑战失败后，鲜有多少搜索产品问世了。不过，现在从行业角度说，也还是几个点而已。

点一：

下一代搜索，根本不再是Google PageRank算法一统江湖的搜索

众所周知，PageRank是Google创始人从学术论文引用惯例中得到启发，进而在Web上成功试验的内容权重排序规则，即搜索界的行业术语“算法”。这套算法规则简洁、实用、严谨。理念是，如同任何一页论文，都有可能被引用，任何一个Web网页，都有可能被链接，于是，整个网页世界，呈现一幅去中心点的“蜘蛛网”结构，只要你足够好，大家都会公平的关联你（即使N度间接链接也能被跟踪算入），即使你多么渺小，你都不至于被网络世界遗忘。

—— 拥有这样的思想和技术，如同拥有真理。但我认为Google的算法体系，从来就不是公开的PageRank这么简单。在Blog出现之前，自觉链接内容上家网页的网页占整个网页量的比重是多少？从我们十几年点击网页的经验看，真不多。这个比重，估计中国最低。这个国家，是否有产权版权这些上升到法律层面的意识先不说，谁愿意自己网站让人看起来都是复制粘贴的内容？尊重别人的劳动成果这个层面，套用Google的说法，那需要5000年的耐心。

在这种文化差异下（明明是差距），如果百度照搬PageRank的算法，估计早就没戏了。百度是怎么做的，李彦宏东施效颦，整出自信心定律什么的，那都是浮云。从技术角度说，可以通过统计相同内容的不同网页的发布时间先后；网页内容被转载后，第一出处被注明（而非链接）的次数等细节判断。但这远远不够。有两招，其中一招竞价排序百度玩的最好。另外一招，就是利用网民的点击流和搜索习惯，来建立N多数据模型，来洗涤过滤搜索结果，估计这才是Google的秘密武器，越来越庞大。

至于智能搜索，语义搜索等下一代搜索的说法，还有点远。用过流量统计工具的创业者可以看一下，从搜索过来的，即使是Google过来的点击，基本上是以网页标题匹配度引导过来的。也就可以说，N多数据模型，也是建立在对网页标题的分词上，对网页全文内容的分词分析还不够。

这就引出第二个点，下一代搜索的算法。

点二：下一代搜索，从“赞”开始

在较早的时候，Google在搜索结果列表中，也尝试过几次“搜索历史记录”、“Digg某条搜索”等社会化手段，但都遮遮掩掩，没有锦上添花？为什么？原因很简单，很多网页网站根本是幽灵，即使用户偶尔愿意赞一下，它能在互联网上呆几天，根本不好说。要么死链，要么被瞬息变幻的竞争网页沉到搜索海底，用户下次根本无从寻找，更别提对其他用户或数据模型有什么参考帮助了。

那么，我们就要问了，那些个冰冷孤独的僵尸网页，到底在整个互联网世界有没有价值？Facebook从容地回答了这一问题，无价值。Facebook推出“赞”按钮，可谓升华了互联网的分享精神（从草根分享思维到精英分享思维），又简化便捷了分享的门槛。

我们都已经赞过了，很清楚，如果一个网页太烂或其内容太烂，根本就会第一时间扔掉它。我们只关注有价值的网页。那么，搜索在梳理整个网页的时候，是不是可以建立一些新的规则，比如按照赞、分享推荐、收藏、另存为等来做算法，推出一个超赞的定律。

这是本质的区别。上一代搜索是基于机器对信息的处理。但现在，社交社会化网络时代，人对信息有了更多的干预处理，这个互动流借鉴到搜索系统，搜索结果一定会更具有人性、个性（具体说，上述互动过程，下家都会带上上家链接，有助于优化PageRank呢。这个建议算是送给PageRank的联合发明人，王者归来的Page吧），或者按照文头的那个说法，下一代搜索或许根据不同人的需求，直接给出答案，但绝对不是百度知道式的答案，而应该是一系列解决方案。

点三，下一代搜索，请彻底扔掉垃圾网页

包括赞在内所有社交工具的分享功能中，之于对搜索的竞争，我最看好T代搜索。也就是Twitter微博式搜索。

我说的不是在微博网站内部建立一个搜索，甚至不是围绕所有微博信息开发一款搜索。而是，微博的产品结构，具备成为下一代信息入口的潜力。一条条微博，将被某个搜索关键词请求筛选，成为搜索结果的列表页。

看看，140字的消息，多么像搜索结果的摘要啊。微博后面带的短网址，根本就是搜索结果让你最快时间跳开的链接啊。无论你是真心喜欢一个网页，没有任何利益关系的分享，还是纯粹为了自家产品服务推广宣传，都需要填写摘要（哪怕只是标题）和链接，都在为更有利于判断的网页世界做出贡献。因为这个过程中，起码那些僵尸网页被你激活、优化或者干脆抛弃。你在社交关系面前守住了底线，否则好友粉丝第一时间鄙视你屏蔽你。

如果是这样，微博引导的网页，为什么不能在搜索算法中，增加权重呢。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：再评Google将要退出中国

新浪BLOG意见反馈留言板　欢迎批评指正