标签:
搜索竞价排名佩奇智能搜索社交搜索it |
周永德/文
搜索引擎发展这么多年,也很难界定是第几代了。各人各家都有不同的年代说法,说来说去,代代也乱了。不足重。
对于动态中的新技术,谁也很难有研究其历史的坐标,更没有预测未来的理论体系。毕竟搜索是最纯粹的互联网服务,可以说是互联网的产物。取之于网,用之于网,不会死亡。之前也写过搜索的一些文章,都是从用户的角度浅谈。
前几天看到一个标题,说什么下一代搜索是直接提供答案,不知怎么回事,我都竟然没有点开看(还不如换个说法,问答网站将推翻搜索网站,正如Google取代了雅虎门户)。不过,现在是谈论这个问题的时候。依稀记得,中国市场,自奇虎从社区论坛搜索开始挑战失败后,鲜有多少搜索产品问世了。不过,现在从行业角度说,也还是几个点而已。
点一:
下一代搜索,根本不再是Google PageRank算法一统江湖的搜索
众所周知,PageRank是Google创始人从学术论文引用惯例中得到启发,进而在Web上成功试验的内容权重排序规则,即搜索界的行业术语“算法”。这套算法规则简洁、实用、严谨。理念是,如同任何一页论文,都有可能被引用,任何一个Web网页,都有可能被链接,于是,整个网页世界,呈现一幅去中心点的“蜘蛛网”结构,只要你足够好,大家都会公平的关联你(即使N度间接链接也能被跟踪算入),即使你多么渺小,你都不至于被网络世界遗忘。
—— 拥有这样的思想和技术,如同拥有真理。但我认为Google的算法体系,从来就不是公开的PageRank这么简单。在Blog出现之前,自觉链接内容上家网页的网页占整个网页量的比重是多少?从我们十几年点击网页的经验看,真不多。这个比重,估计中国最低。这个国家,是否有产权版权这些上升到法律层面的意识先不说,谁愿意自己网站让人看起来都是复制粘贴的内容?尊重别人的劳动成果这个层面,套用Google的说法,那需要5000年的耐心。
在这种文化差异下(明明是差距),如果百度照搬PageRank的算法,估计早就没戏了。百度是怎么做的,李彦宏东施效颦,整出自信心定律什么的,那都是浮云。从技术角度说,可以通过统计相同内容的不同网页的发布时间先后;网页内容被转载后,第一出处被注明(而非链接)的次数等细节判断。但这远远不够。有两招,其中一招竞价排序百度玩的最好。另外一招,就是利用网民的点击流和搜索习惯,来建立N多数据模型,来洗涤过滤搜索结果,估计这才是Google的秘密武器,越来越庞大。
至于智能搜索,语义搜索等下一代搜索的说法,还有点远。用过流量统计工具的创业者可以看一下,从搜索过来的,即使是Google过来的点击,基本上是以网页标题匹配度引导过来的。也就可以说,N多数据模型,也是建立在对网页标题的分词上,对网页全文内容的分词分析还不够。
这就引出第二个点,下一代搜索的算法。
点二:下一代搜索,从“赞”开始
在较早的时候,Google在搜索结果列表中,也尝试过几次“搜索历史记录”、“Digg某条搜索”等社会化手段,但都遮遮掩掩,没有锦上添花?为什么?原因很简单,很多网页网站根本是幽灵,即使用户偶尔愿意赞一下,它能在互联网上呆几天,根本不好说。要么死链,要么被瞬息变幻的竞争网页沉到搜索海底,用户下次根本无从寻找,更别提对其他用户或数据模型有什么参考帮助了。
那么,我们就要问了,那些个冰冷孤独的僵尸网页,到底在整个互联网世界有没有价值?Facebook从容地回答了这一问题,无价值。Facebook推出“赞”按钮,可谓升华了互联网的分享精神(从草根分享思维到精英分享思维),又简化便捷了分享的门槛。
我们都已经赞过了,很清楚,如果一个网页太烂或其内容太烂,根本就会第一时间扔掉它。我们只关注有价值的网页。那么,搜索在梳理整个网页的时候,是不是可以建立一些新的规则,比如按照赞、分享推荐、收藏、另存为等来做算法,推出一个超赞的定律。
这是本质的区别。上一代搜索是基于机器对信息的处理。但现在,社交社会化网络时代,人对信息有了更多的干预处理,这个互动流借鉴到搜索系统,搜索结果一定会更具有人性、个性(具体说,上述互动过程,下家都会带上上家链接,有助于优化PageRank呢。这个建议算是送给PageRank的联合发明人,王者归来的Page吧),或者按照文头的那个说法,下一代搜索或许根据不同人的需求,直接给出答案,但绝对不是百度知道式的答案,而应该是一系列解决方案。
点三,下一代搜索,请彻底扔掉垃圾网页
包括赞在内所有社交工具的分享功能中,之于对搜索的竞争,我最看好T代搜索。也就是Twitter微博式搜索。
我说的不是在微博网站内部建立一个搜索,甚至不是围绕所有微博信息开发一款搜索。而是,微博的产品结构,具备成为下一代信息入口的潜力。一条条微博,将被某个搜索关键词请求筛选,成为搜索结果的列表页。
看看,140字的消息,多么像搜索结果的摘要啊。微博后面带的短网址,根本就是搜索结果让你最快时间跳开的链接啊。无论你是真心喜欢一个网页,没有任何利益关系的分享,还是纯粹为了自家产品服务推广宣传,都需要填写摘要(哪怕只是标题)和链接,都在为更有利于判断的网页世界做出贡献。因为这个过程中,起码那些僵尸网页被你激活、优化或者干脆抛弃。你在社交关系面前守住了底线,否则好友粉丝第一时间鄙视你屏蔽你。
如果是这样,微博引导的网页,为什么不能在搜索算法中,增加权重呢。
搜索引擎发展这么多年,也很难界定是第几代了。各人各家都有不同的年代说法,说来说去,代代也乱了。不足重。
对于动态中的新技术,谁也很难有研究其历史的坐标,更没有预测未来的理论体系。毕竟搜索是最纯粹的互联网服务,可以说是互联网的产物。取之于网,用之于网,不会死亡。之前也写过搜索的一些文章,都是从用户的角度浅谈。
前几天看到一个标题,说什么下一代搜索是直接提供答案,不知怎么回事,我都竟然没有点开看(还不如换个说法,问答网站将推翻搜索网站,正如Google取代了雅虎门户)。不过,现在是谈论这个问题的时候。依稀记得,中国市场,自奇虎从社区论坛搜索开始挑战失败后,鲜有多少搜索产品问世了。不过,现在从行业角度说,也还是几个点而已。
点一:
下一代搜索,根本不再是Google PageRank算法一统江湖的搜索
众所周知,PageRank是Google创始人从学术论文引用惯例中得到启发,进而在Web上成功试验的内容权重排序规则,即搜索界的行业术语“算法”。这套算法规则简洁、实用、严谨。理念是,如同任何一页论文,都有可能被引用,任何一个Web网页,都有可能被链接,于是,整个网页世界,呈现一幅去中心点的“蜘蛛网”结构,只要你足够好,大家都会公平的关联你(即使N度间接链接也能被跟踪算入),即使你多么渺小,你都不至于被网络世界遗忘。
—— 拥有这样的思想和技术,如同拥有真理。但我认为Google的算法体系,从来就不是公开的PageRank这么简单。在Blog出现之前,自觉链接内容上家网页的网页占整个网页量的比重是多少?从我们十几年点击网页的经验看,真不多。这个比重,估计中国最低。这个国家,是否有产权版权这些上升到法律层面的意识先不说,谁愿意自己网站让人看起来都是复制粘贴的内容?尊重别人的劳动成果这个层面,套用Google的说法,那需要5000年的耐心。
在这种文化差异下(明明是差距),如果百度照搬PageRank的算法,估计早就没戏了。百度是怎么做的,李彦宏东施效颦,整出自信心定律什么的,那都是浮云。从技术角度说,可以通过统计相同内容的不同网页的发布时间先后;网页内容被转载后,第一出处被注明(而非链接)的次数等细节判断。但这远远不够。有两招,其中一招竞价排序百度玩的最好。另外一招,就是利用网民的点击流和搜索习惯,来建立N多数据模型,来洗涤过滤搜索结果,估计这才是Google的秘密武器,越来越庞大。
至于智能搜索,语义搜索等下一代搜索的说法,还有点远。用过流量统计工具的创业者可以看一下,从搜索过来的,即使是Google过来的点击,基本上是以网页标题匹配度引导过来的。也就可以说,N多数据模型,也是建立在对网页标题的分词上,对网页全文内容的分词分析还不够。
这就引出第二个点,下一代搜索的算法。
点二:下一代搜索,从“赞”开始
在较早的时候,Google在搜索结果列表中,也尝试过几次“搜索历史记录”、“Digg某条搜索”等社会化手段,但都遮遮掩掩,没有锦上添花?为什么?原因很简单,很多网页网站根本是幽灵,即使用户偶尔愿意赞一下,它能在互联网上呆几天,根本不好说。要么死链,要么被瞬息变幻的竞争网页沉到搜索海底,用户下次根本无从寻找,更别提对其他用户或数据模型有什么参考帮助了。
那么,我们就要问了,那些个冰冷孤独的僵尸网页,到底在整个互联网世界有没有价值?Facebook从容地回答了这一问题,无价值。Facebook推出“赞”按钮,可谓升华了互联网的分享精神(从草根分享思维到精英分享思维),又简化便捷了分享的门槛。
我们都已经赞过了,很清楚,如果一个网页太烂或其内容太烂,根本就会第一时间扔掉它。我们只关注有价值的网页。那么,搜索在梳理整个网页的时候,是不是可以建立一些新的规则,比如按照赞、分享推荐、收藏、另存为等来做算法,推出一个超赞的定律。
这是本质的区别。上一代搜索是基于机器对信息的处理。但现在,社交社会化网络时代,人对信息有了更多的干预处理,这个互动流借鉴到搜索系统,搜索结果一定会更具有人性、个性(具体说,上述互动过程,下家都会带上上家链接,有助于优化PageRank呢。这个建议算是送给PageRank的联合发明人,王者归来的Page吧),或者按照文头的那个说法,下一代搜索或许根据不同人的需求,直接给出答案,但绝对不是百度知道式的答案,而应该是一系列解决方案。
点三,下一代搜索,请彻底扔掉垃圾网页
包括赞在内所有社交工具的分享功能中,之于对搜索的竞争,我最看好T代搜索。也就是Twitter微博式搜索。
我说的不是在微博网站内部建立一个搜索,甚至不是围绕所有微博信息开发一款搜索。而是,微博的产品结构,具备成为下一代信息入口的潜力。一条条微博,将被某个搜索关键词请求筛选,成为搜索结果的列表页。
看看,140字的消息,多么像搜索结果的摘要啊。微博后面带的短网址,根本就是搜索结果让你最快时间跳开的链接啊。无论你是真心喜欢一个网页,没有任何利益关系的分享,还是纯粹为了自家产品服务推广宣传,都需要填写摘要(哪怕只是标题)和链接,都在为更有利于判断的网页世界做出贡献。因为这个过程中,起码那些僵尸网页被你激活、优化或者干脆抛弃。你在社交关系面前守住了底线,否则好友粉丝第一时间鄙视你屏蔽你。
如果是这样,微博引导的网页,为什么不能在搜索算法中,增加权重呢。
前一篇:再评Google将要退出中国