1
轰轰烈烈的3B大战,昨天终于打响了反击的枪声,百度也算男人了一把,让一边倒的局面变成了像模像样的大战。都说厂家大战的时候,用户一定是赢家,这次是这样吗?
说起来,这3B大战,源于360“进军搜索市场”的大规模攻势。挟掌控浏览器和客户端安全之威,360一进来就不按常理出牌,不是在后台做强自家的搜索技术,而是把主要精力花在了流量的引导上。只要能够成功引导了流量,搜索结果可以多方整合么。
百度也不想吃这个哑巴亏。你要借我的内容引导你的流量,我偏不让你如愿。经过昨天晚上的调整,360整合的所谓结果是没法直接看的,到头来还得到百度这儿来重定向。也就是说,百度让360引导的流量成了无效流量,控制了本该属于自己的有效流量。
但用户呢?本来一次点击就搞得定的搜索,不得不又凭空增多了一次点击。前面一次给出的成了个半截子结果,看不了、用不上。你说怨360吧,那重定向还真是百度搞的;你说怨百度吧,百度说我只是不想让别人白拿我的东西。
这只是表象。要想更深入地理解这场大战,就要对搜索引擎和浏览器各自的商业模式和商业地位进行多方位的分析,对爬虫、元搜索、流量、入口等基本概念进行一些必要的梳理。梳理过后,相信仁者见仁,智者见智。
2
浏览器是访问互联网的最重要入口。想当年,微软和网景大战浏览器的时候,浏览器的战略地位就是如此。这是因为,浏览器从传输和展现两个层面,整合了互联网服务。客观地看,浏览器的最大功用是“容器”,容天下一切媒体类型;是“舞台”,任凭各种信息内容和服务同台献演。浏览器在PC平台上最大限度地挤压了专用的客户端,使BS架构远远超越CS架构。默认浏览器和默认首页设置,为某些人为的“粘性”提供了可乘之机,而某些广告,又借机搭上了这入口的便车。门户网站、搜索引擎、浏览器,一个比一个离最终用户近。近的挤压远的,这是地利之便。不利用这地利之便,还叫商人么?
但是,如何利用这地利之便,却是大有讲究的。
3
最简单的办法是客户端元搜索。也就是说,凡是在这浏览器里发出去的查询指令,都被浏览器分别转发给若干个现成的搜索引擎,查询结果返回的时候,由浏览器进行整合,再把整合的内容呈现给搜索用户。注意,这时候可以做几件事情:第一,浏览器可以过滤掉来自各个搜索引擎的广告;第二,浏览器可以把这个查询指令复制一份发给自家的服务器;第三,自家的服务器接到查询指令后,可以如其他搜索引擎一般精确匹配自家的广告;第四,这个精确匹配的自家广告,可以推送到浏览器,向搜索用户强行呈现。这一切都是因为有了浏览器,但也要有别人的搜索引擎。
我们分析一下这种场景下的流量格局:(1)客户端同时产生了指向各个搜索引擎的流量,同时也产生了指向浏览器厂商自家服务器的流量。(2)指向各个搜索引擎的流量被各个搜索引擎认为是正常的流量,匹配了正常的广告,但却可能未被送达使用其搜索服务的用户。(3)不做搜索专做广告的浏览器厂商自家的服务器借助用户的搜索动作获得了流量,匹配了广告且成功送达搜索用户。
所以,客户端元搜索可以真正把广告匹配的点“向前推进”到客户端。但光看流量,是各个被纳入元搜索对象的搜索引擎“雨露均沾”的。只不过,在商业上,这雨露为他人做了嫁衣裳。短时间内,各个搜索引擎的广告收入依旧,但过不了多久就会受到影响。当然,客户端元搜索产生的流量,通过在客户端抓包是很容易分析出来的。如果有一天这种行为被认定为有问题,那么这些有问题的流量在客户端简直就是“铁证如山”,难以抵赖。
4
稍微复杂一点的是服务器端元搜索。也就是说,查询指令是只发给浏览器厂商绑定的服务器的,但这些服务器接到查询指令之后,转而向纳入元搜索对象的各个搜索引擎分发同样的查询指令,对返回的搜索结果在服务器端统一整合后,推送给浏览器。注意,这时候,进行元搜索的服务器同样可以过滤来自纳入元搜索对象的各个搜索引擎推出来的广告,换上自家的广告。浏览器的作用,在于浏览器自身可以给你提供默认的搜索窗口。这个默认的搜索窗口,指向的是自家的元搜索服务器。
这里稍微解释一下元搜索服务器和爬虫的区别。元搜索服务器和爬虫都是自动运行的网络机器人,执行的都是支撑万维网的http协议。但它们最大的不同点是:元搜索是针对特定查询请求实时发送的,爬虫是不针对特定查询请求大面积批作业,并且允许预处理的。所以,元搜索服务器能够更及时地针对特定查询请求汇总整合多方搜索结果,并且以单一服务的形象呈现给浏览器那一端。
我们来看服务器端元搜索模式下的流量格局。在服务器端元搜索模式下,所有搜索流量都被引导到浏览器厂商自家的元搜索服务器。一切元搜索流量,发生在元搜索服务器和被纳入元搜索范围的各个搜索引擎之间。如果元搜索服务器不做热词搜索结果的缓存,被纳入元搜索范围的各个搜索引擎的流量并未减少,但直接受众面缩减到了只对元搜索服务器,更不要说广告一旦被过滤和替换,间接受众面也缩减到了只对元搜索服务器了。
服务器端元搜索的直接后果就是搜索流量被浏览器引导,说难听点叫劫持。元搜索服务器和浏览器前后台密切呼应,既控制了入口也控制了流量的走向,然后就顺理成章地控制了广告收入份额。当然,对服务器端元搜索的防范,目前基本上是君子协定,让你的机器人悠着点就是了。对于刻意在这个领域点燃战火、贴身肉搏的主儿,这种君子协定是不管用的。
所以,针对服务器端元搜索,被纳入元搜索范围的搜索引擎厂商采取反制措施就是可以理解的了。以百度的反制措施为例,它给元搜索服务器送去的结果是无法直接用的,到头来还要把流量引回到自家的服务器,方才真正给出用户可以用的结果。
如果服务器端元搜索被认定是有问题的,其取证比客户端元搜索要复杂很多。客户端流量的采集和分析是没有用的,因为流量被引导得很好,元搜索的流量根本不在客户端出现。一般公认可行的做法是元搜索对象集体“挖坑”,让元搜索这一方掉进去。正如谷歌和必应之间的官司表明的那样,这一招是可以救命的。
5
比服务器端元搜索更隐蔽、更巧妙的是服务器端整合搜索。服务器端整合搜索有两个方面的含义:其一是搜索和元搜索的融合,其二是实时数据和离线数据的融合。所谓搜索和元搜索的融合,就是浏览器厂商自身也运行一个搜索引擎,把这个搜索引擎也作为元搜索的对象。所谓实时数据和离线数据的融合,就是对此前的元搜索结果进行缓存,甚至按照特定的频度安排主动发起一些关键词的元搜索并对结果进行有组织、有体系、有更好时效性的缓存,在实时接到被引导过来的查询指令时能够综合实时搜索结果和缓存结果,给出整合性更好的搜索结果。
搜索与元搜索、实时数据和离线数据交叉组合,一共有四种情况。实事求是地说,如果真正能完整实现四种交叉组合、做到服务器端整合搜索,那也是需要相当技术含量的。这种整合,整合一方无论从内容上还是从体验上都确实有实质性的贡献,所以不能简单地反对或者指责。当然整合一方的贡献也没大到足以吞没被整合一方的全部流量的程度。业界还是要探讨合理的利益分配机制,防止借这种贡献来劫持同样有贡献的元搜索对象一方的广告,促进搜索事业良性健康发展。
6
3B大战的序幕刚刚拉开,重头戏还在后头。按理说,利益直接驱动下的专业人士会比我们这些看客更能发挥聪明才智,奉献出一个个更加精彩的技术和商业经典案例。但是也不排除后续演出更加难看的可能性。作为看客,还是对好戏连台更加期盼一些,希望当事人不要辜负了看客的期望。
监管者会出来拉架吗?如果不是演出更加难看,我判断不会。
法律法规会以此为契机逐步走向完善吗?如果不是演出更加精彩,我判断不会。
还在学习和研究搜索技术的各位老师学生们,应该借此知道,搜索不仅是一个炙手可热的行业,更是一个深不可测的江湖。不理解江湖,就不能真正理解搜索。不理解江湖,就不能很好地跟江湖合作甚至取得江湖的赞助。不理解江湖,将来就无法在江湖打拼和立足。
加载中,请稍候......