写在前面
终于要开始写揭秘淘宝搜索的文章了,2013年1月自媒体”鬼脚七”刚开始的时候,我说如果微信"鬼脚七"粉丝数达到10万,我就开始写《揭秘淘宝搜索》,在这个账号中连载,没想到很快就到了。当时我还在负责淘宝搜索的产品,现在我不再负责淘宝搜索业务,正好可以专心写淘宝搜索的文章。
之所以写想写这个系列的文章,有几个原因:
1 淘宝搜索对于一个卖家来说,太重要了。目前又没有系统性的介绍,我之前答应过要写,这次刚好有机会。可以供卖家参考。
2 我负责了4年多的淘宝搜索技术和产品,如今不再负责搜索业务了,也希望能写一些文章,做为总结。也算对自己交代。
3 目前对于购物搜索方面的文章太少,我写出来,可以让其他做购物搜索的同仁们有所借鉴。
搜索这十多年,就像一幕电影。我现在只不过把剧本零星的整理出来形成系列的文章。
我假定的读者对象是搜索相关产品和技术人员、所有淘宝和天猫上的卖家,以及其他对购物搜索感兴趣的朋友。因此文章不能太技术,但又不能太没有技术,这是很有挑战的地方。所以大家不要期望太高,照顾一下其他读者。
虽然是计划写揭秘淘宝搜索系列,但我希望我的文章包括淘宝搜索、一淘搜索、天猫搜索、以及阿里巴巴B2B的搜索,也不会有真的内部秘密要公开,能公开的就不是秘密。
那几个搜索引擎
B2B、B2C、C2C这些名词想必都很熟悉,还有现在比较新潮的O2O, C2B。所谓的模式,都是做出来以后总结出来的。先知先觉设定某个模式,然后去搞,十有八九不会成功。此文章系列不谈这些,着重谈搜索技术,不同的搜索引擎,搜索的原理基本一致,只是在产品策略,排序因素上有各自的特性。
如果讲这几搜索引擎技术的完整性,一淘搜索最完整。具体技术以后再讲,先说说一淘搜索。
中国最大的全网购物搜索是一淘搜索(淘宝搜索不是全网购物搜索),但明显一淘搜索还不属于购物的主要入口,相比淘宝本身还很小,看似一个很好的应用,却一直没有得到市场的认可。原因是多方面的,我这里列几个:
-
当市场一家或几家独大的时候,站内的购物搜索已经能解决用户90%的需求,全网购物搜索引擎的需求不大;
-
购买商品不同于浏览网页,需要输入账号,很少有人愿意到一个地方搜索,然后到另外一个地方重新输入账号、浏览、购买,然后再回来进行搜索的;
-
各个电商网站的数据非常不一样,如果搜索产品想做到非常好用,技术难度不是一般的高。
淘宝搜索是最有挑战性的。我从2000年开始做搜索技术,先后做网站的站内搜索、企业知识搜索、网页搜索,最后做淘宝搜索。这十几年中,遇到最具挑战性的就是淘宝搜索。虽然数据量不是最大的,但其技术的复杂性,一点都不低于网页搜索,更具有挑战的是,其产品策略太难制定,在考虑用户体验的同时,还需要考虑几百万卖家的利益。而且道高一尺魔高一丈,无论多好的策略,很快就可能被市场破坏。
天猫搜索和淘宝搜索都是同一套技术体系,因为他们要解决的问题都是一样的。天猫的数据量小,商家数只有淘宝商家数的百分之几,商品量也很小,天猫搜索的产品策略和淘宝搜索有明显的不一样。天猫搜索不担心马太效应(马太效应是指大者越来越大,小者很难成长),天猫可以通过制度要求让卖家配合很多规则,例如商标、图片、正品要求、发票等。当然,天猫搜索还会倡导品质,而不是便宜。
淘宝搜索和天猫搜索都有两个类型的应用,一个是直接关键词搜索,一个是类目浏览(也就是list)。前者好理解,后者是指当用户通过某个类目名称进入到商品列表页的时候,出现的搜索结果。这两者都是调用的同一个后台,只不过排序因子有些不一样。
阿里巴巴B2B的搜索,也就是1688的搜索,我自己还不太了解,等过些天我去拜访一下相关的负责人,再向大家做介绍。
淘宝搜索VS. 网页搜索
我们平时用网页搜索引擎更多,为了让大家更清楚了解淘宝搜索的特点,我这里把网页搜索和淘宝搜索的特点做个对比。
一、搜索流量的价值
淘宝上每个卖家店铺流量来源主要分成三部分:推广流量(付费广告或免费活动);老客户(直接登录、收藏等);搜索流量。由于推广活动的持续性问题,搜索流量基本上决定了一个店铺新客户来源。如果一个店铺新客户来源不够的话,在市场上会日益衰落。
目前的网页搜索引擎公司,盈利的主要来源还在搜索广告。但对于网页搜索引擎来说,不是所有的流量都有价值,例如:在百度上搜索“李湘”,估计就没有什么广告,大多是明星新闻八卦什么的。一般的网页搜索流量中,大约20%~30%的搜索词是有商业价值的(适合出广告)。淘宝搜索不一样的是,基本上99%的流量都是有商业价值的。搜索“李湘”,会出来减肥茶,搜索“林志玲”,会出来充气娃娃;在韩寒和方舟子闹得很厉害时,搜索“韩寒 VS 方舟子”也有很多个性T-shirt结果。某种程度上可以说,如果淘宝搜索流量有10亿,其价值估计相当于网页搜索流量40亿的商业价值。
在淘宝搜索上,如果要卖广告,是最好融合的。因为淘宝搜索的结果本身就是商品,广告也是商品,二者没有区别。
二、搜索的社会影响
这个和淘宝本身的社会影响相关联。现在淘宝卖家数达到800万,活跃卖家数应该在200万左右。我们假设平均每个活跃卖家背后有5个人,那么直接在淘宝上就业的人就有1000万人,如果加上其他兼职卖家、快递公司、第三方服务公司等,估计能到2000万人。每天有上亿的用户上淘宝去买东西。淘宝任何一个规则的变化,对整个社会都会有不小的影响。
2012年淘宝、天猫双十一,整个交易额达到191亿,考验的不只是淘宝、淘宝卖家、淘宝买家,还有物流快递公司、银行支付系统等。试想有一天淘宝忽然停业一天,全国有多少人都得在家打麻将了。同理,搜索的任何一个变化,都会影响淘宝卖家,通过卖家会影响到买家、第三方物流……
不知道有多少人还记得2010年7月份搜索规则的变化,已经由一个公司内部的技术变革,演变成一个社会事件。这个在本文后面会有专题介绍。
三、搜索的实时性
如果有人自己建了个网站,网页搜索引擎要是一两个星期没有收录这个网站,站长也不会太着急。但在淘宝上不一样,必须是实时或者接近实时的。卖家发布一个商品,希望几分钟后就能搜索到。因为商品是实体,卖一件少一件,价格也会有变化,卖家还会经常搞活动,如果信息更新不及时,就会误导买家,造成纠纷。这些对搜索的实时性要求非常高。
在淘宝上,每天会有上亿的商品信息发生变化,包括上架、下架、销量、价格、属性、描述的变化等。这些商品绝大部分都会在几分钟之内反应到搜索结果中去,如果要做到实时的呢? 这对技术带来的挑战是巨大的。淘宝最开始更新的周期是半个小时到40分钟,到2012年已经缩短到三四分钟之内了。当然,晚上系统做更新的时候,数据更新会稍微慢一些。
四、搜索的查全率
查全率是个专业术语。所谓查全率,就是搜索鞋子,找到的鞋子数量占总体鞋子数量的百分比。类似的术语还有相关性,相关性就是指搜索结果和搜索词是否相关。例如:搜索“做自己”,出来《做自己》这本书就算相关,出来《做自己的口才专家》就属于不相关。搜索手机,出来手机链也属于不相关。
网页搜索是会做一些消重和过滤的。我们在网页搜索时,最不希望看见的就是一摸一样的重复结果。在淘宝搜索中,我们也不希望看见太多的重复结果,但同时又希望有不同的商家可以对比,有不同的地域可以选择。对于卖家来说,如果自己店铺的宝贝因为跟其他店铺重复而不出现的话,一定会询问为什么,淘宝的客服电话很快就会打爆了。
淘宝搜索,一方面要考虑买家的体验,一方面又要考虑卖家的利益,这就需要采用很多不同的技术解决。
五、搜索的反作弊
有一项很吃香的职业,叫搜索引擎优化(SEO),他们的主要工作就是如何让制定的结果在搜索引擎中排名靠前。如果用正常手段,叫SEO,如果用一些欺骗的手段,就叫作弊。网页搜索和淘宝搜索上作弊的人都非常多,因为搜索引擎的重要,导致有太多的利益驱动。虽然都有作弊,但手段很不一样。
在淘宝搜索上是直接和交易相关,所以作弊更加疯狂;同时检测作弊的对象又是淘宝的卖家,如果算法有误杀,会导致正常的卖家受到损失,这个损失经常是这个卖家不可承受的。如何进行搜索的反作弊,也是一项很有挑战的技术。
阿基米德
淘宝搜索这几年,最大的变化有两个,一个是阿基米德,一个是个性化搜索。这是我在负责淘宝搜索期间,主导的最重要的两个项目。阿基米德的上线,奠定了整个淘宝搜索的框架,直到现在,搜索的排序算法还是基于当时建立的框架。如果说阿基米德是过去和现在,那么个性化项目则是淘宝搜索的未来。从2012年开始在个性化排序和推荐上做了很多工作,2013年也是重点。个性化以后会有专门的文章来介绍,这里只介绍阿基米德。
2010年7月8日,淘宝搜索新排序算法阿基米德上线。由于排序算法变化大,导致很多卖家的流量波动非常大。特别是靠之前规则获得很多流量的卖家,这次规则的调整,导致他们流量大幅下降,因此很多卖家开始围攻淘宝。这就是7.8事件。回忆当时的情景,我仍然历历在目。大家可以看看下面的新闻截图:
http://s9/mw690/66a46e6cgx6BQp74SUM48&690揭秘淘宝搜索•那段故事" TITLE="305-
以下内容摘选自我在2010年8月发给所有淘宝内部小二的邮件:
Hi 大家好,
想必这段时间大家从各方渠道都听到了不少卖家的声音,有新闻、有论坛、有抗议的、有拉横幅的,肯定也有卖家直接找到我们小二来询问,背后到底发生了什么?搜索规则的修改真的是像外界说的一样么?相信每个小二都有疑惑。
夜深人静,我来给大家做个详细介绍。
不是前言的背景
以前的搜索,一直是简单的原则:消保优先、相关性、橱窗推荐的三大前提下,按照下架时间排序。
存在的一些不好的现象:
1. 一个貌似对卖家很公平的原则,从实际展现数量和点击数量来看,还是被一些针对规则做了很多优化的大卖家把持着;
2. 对于消费者也没有任何公平可言,因为最重要的排序因素下架时间,消费者不关心。消费者最关心的卖家服务质量,却没考虑在内。
3. 流量浪费非常严重,不少卖家每天得到流量很大,但成交比例非常低。有的卖家经常每天上千个搜索点击流量,只有一到两单的成交,有的甚至一单都没有。
4. 很多卖家花很多心思琢磨如何给店铺增加更多的流量(不排除通过作弊等方式),但通常忽视对于买家的服务质量。
我们希望那些服务质量好的卖家,能自然得到更多的流量。服务越好,流量增长越多!
我们希望那些得到流量的卖家,如果服务质量不好,流量会越来越低!
我们希望卖家可以花更多的时间和精力在如何服务好买家,而不是挖空心思想搞流量!
于是我们有了阿基米德!
什么是阿基米德
2010年,淘宝消费者年。
每天是谁在直接接触消费者?不是淘宝几千名小二,而是淘宝几百万的卖家。如果卖家对消费者的服务越来越好了,那么消费者的体验会越来越好!
阿基米德,简单说,就是把“店铺服务质量”作为重要因素加入到搜索中来影响排序。7月8日上线阿基米德以后,目前的排序规则是:
消保优先、相关性、橱窗推荐的三大前提下,在一定时间范围内,按照店铺服务质量权重排序。
目前影响店铺服务质量参考的因素有很多,包括:是否违规、是否作弊、退款率、超时退款率、发货速度、旺旺响应速度、滞销商品率…….等。参数有几十个,只是权重不一样。
阿基米德的影响
这次调整,确实对卖家的影响比较大,应该说是几家欢喜几家愁。各方面的新闻报道,就不计其数;来淘宝抗议的卖家,也来了几波了。
这个情况下,来看看整体数据:
1 搜索带来的UV成交转化率至少提升7.942%,搜索结果点击率提升4.14%,退款率下降19%
2 今天刚收到BI同学做的全站对比分析数据:
全网UV下降明显
大家都知道6、7、8月是淡季,我不擅长做数据分析,但有一点是可以说明的:阿基米德的上线没起啥坏作用,也并不是很多抵制搜索排序改版的人说的那样。
这 次调整,对于P4P广告的收入冲击很大,上线的第一周,搜索右侧的广告收入,下降了约10%左右。主要的原因就是因为消费者使用搜索时点击搜索结果更多 了,点击广告更少了。超凡、龙飞、三多对这次变化,表现出了高度的姿态:支持搜索的改变!老陆、三丰、东邪也纷纷表示:不要担心收入下降,只要对消费者有 更好的体验,支持!
加上数据的支持,给予搜索部门同事更多的信心!
这次事情对搜索部门的影响就更加深远了,在提升消费者体验方面,可以在排序上做更多的工作。同时,也可以真正利用排序的变化,来引导卖家的行为!让搜索排序成为撬动卖家行为的支点吧!
—-鬼脚七
2010.8.7
从现在来看当时的目的,已经完全达到了,只是当时有点闹腾。
好吧,那就是一段故事,都过去了。
为什么会有这么纠结的地方,思考一下淘宝搜索所处的位置。淘宝搜索的任何变化,需要考虑三方面的因素:买家、卖家、平台。买家的体验是第一位的,需要平衡众多卖家的利益,还要考虑平台的健康发展。
通过这篇文章的描述,应该对淘宝搜索有了大体的印象。不要着急,下次的文章我会专门介绍淘宝搜索系统的原理,逐渐比较技术。如果有耐心看完这个搜索系列文章,就算他不能成为搜索专家,一定能对搜索的逻辑非常清楚。
【7哥闲谈】
1 今天是七夕节,太多人在我的留言中祝福了。我估计留言的有两种人,一种是单身的,闲的无聊给我发消息;另一种还是单身的,否则哪有心思管我啊。还有鬼友建议把今天定义为鬼友节,因为7月初7…….
微博上有人在讽刺大家过七夕节,说都是商家炒作出来,骗钱的。我倒觉得挺好的,又多了个节日,多好。至于炒不炒作,只要大家都愿意,又怎么样呢?钱留在那里不就是用来花的么?花在这种浪漫的炒作也比留在银行强。
2 很多人喜欢存钱,我们父辈就是这样,他们要是没有存款,很没有安全感。但我不喜欢存钱,我喜欢都花掉,或者投资掉。在2010年以前,我银行里的钱从来没有正数过,一直都是负数,要么贷款要么信用卡欠款。这些钱我用来买房、买车、买股票,反正都是从银行贷款出来花。最近两年该买的都买得差不多了,就开始送,给老爸老妈岳父岳母长辈们发工资…….
上次出了第一本书,我就跟家人说,你们照顾我辛苦了,这次版税大家均分啊,一家人开心极了,我老妈老爸经常问,你的书卖了多少了啊……
有人说你不做公益么?我也做公益,组织过不少活动,去年去西藏后组织过捐衣物活动,上次雅安地震也捐了15万(14万的广告收入和1万现金)。不过我很讨厌别人要求我做公益。道德这种事情只能要求自己,不能要求别人。
我在上次的活动中,捐赠177,我送一本签名书,有不少人说你应该每一本捐100元做慈善。我就很反感,我为什么要捐出去,这是鬼友支持我写作的啊,不是鬼友们捐来做慈善的。所以,做慈善也是这样,自己做就好,不要去要求别人,无论对方有钱还是没钱。
3 今天我的微博@淘宝鬼脚七 搞了个活动:天猫2013双11交易额竞猜活动。奖品是价值4w的广告和10本《爱生活》的签名书,有兴趣的朋友可以参加转发活动:)
http://s6/mw690/66a46e6cgx6BQp8FRyJd5&690揭秘淘宝搜索•那段故事" TITLE="305-
4 今天有两篇文章,还有一篇文章是《淘宝搜索算法现状》,大家点击最后阅读原文可以查看。那篇文章来自另外一个微信公众号,也就是我今年要给大家推荐的公众号。
【7哥推荐】
今天推荐的账号,是一个很技术的账号,专门介绍阿里集团核心技术的账号:阿里技术嘉年华(alibabatech)
这个账号在我团队维护,我号召整个集团内部所有的技术团队介绍他们的团队正在使用的技术,要求深入浅出,适合技术爱好者关注。无论你是学生,还是已经毕业了,只要你对技术感兴趣,想了解阿里目前使用了哪些技术,你都应该关注这个账号,每天都有高质量的技术文章,每天一篇,风雨无阻!
关注方法,直接搜索:alibabatech
http://s3/mw690/66a46e6cgx6BQp9Xvfs52&690揭秘淘宝搜索•那段故事" TITLE="305-