加载中…
个人资料
郭昂9
郭昂9
  • 博客等级:
  • 博客积分:0
  • 博客访问:168,029
  • 关注人气:330
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
正文 字体大小:

搜索引擎市场观察(五) 看懂数据背后的秘密,了解搜索引擎的份额统计

(2012-09-03 09:21:50)
标签:

杂谈

分类: 搜索引擎

3SB大战中,无数机构均发布了自己的搜索引擎市场份额报告,各家之间均有较大的差别。这些搜索引擎份额是如何统计出来的呢?大家应该怎么看这些数据呢?这些数字背后又有什么玄机呢?这次我会给大家详细介绍几种不同的流量统计方法,以及其中可能存在的偏差,以及具体的分析方法。

 

对于任何统计,最完美的解决方案,就是记录下来全世界所有网民的上网记录,然后从中提取想要的信息,这样子得到的数据一定是完整和准确的。但是很显然,这个是不可能实现的。所以就有了抽样的方法,就是说,假如全网有1000亿数据,我通过各种方法想办法收集1000万,然后再用这100万的数据进行统计,来代表全网的分布。

 

这种抽样的统计方法肯定与实际值会存在一定的偏差,而最大的偏差可能就会出现在采样本身,就是如何收集这1000万数据。对于搜索引擎的份额统计,一般有两种方式:用户采样和网站采样。

 

用户采样

采样方法:

    统计机构通过在一部分用户的电脑或浏览器上安装一个插件,记录这些用户使用互联网的所有行为。通过这些用户使用搜索引擎的数量,分析搜索引擎市场份额。有的统计机构直接使用其插件用户的使用情况计算份额,而有的为保证真实性会根据中国网民实际分布进行数据调整。

典型案例:

    艾瑞、Hitwise、ComScore、Alexa。多为大型统计机构

优点:

• 用户采样的方法在统计机构中具有最强的信服力,所有财报中正式使用的官方数据也均基于用户采样。

• 其可以记录采样用户访问互联网的全部信息,包括网址导航中搜索引擎使用率,网站流量的流入流出信息。

• 其可以记录互联网所有大小网站的访问信息。

缺点:

• 采样的用户分布可能与实际有较大的出入,如网民阶层分布以及地域分布。大多集中于略偏高端的用户。

• 采样覆盖的大多为家庭及办公用户,对网吧流量的覆盖大多存在缺失或不完全等情况。

• 统计可以被造假,如制造大量使用自己产品的插件用户,可影响到统计数值。艾瑞就曾经出现过被假数据所干• 扰的统计报告。

 

网站抽样

采样方法:

    记录网站来源自不同搜索引擎的流量,根据其比例计算出不同搜索引擎的份额。而有些站长统计工具(如CNZZ,51.la等),由于汇集了大量网站,可以使得统计的覆盖面更大一些,也会更准一些。

典型案例:

    CNZZ、51.la、大量站长

优点:

• 对中文搜索的用户覆盖和分布非常完美,可以很好的覆盖办公、网吧等不同类型,以及不同地域、不同层次的各种网民。

缺点:

• 受采样网站所影响,例如如果是学术类网站居多,那么谷歌的份额一定会很高。反过来,如果是娱乐网站为• 主,那么搜狗或百度的份额也会偏高一些。

• 会受到搜索引擎的算法所影响,例如某个搜索引擎给某个被统计的网站降了权,那么即使其流量未产生变化,也会直接反应到搜索引擎份额的统计之中。

• 若在整合采样的统计中,新增或减去了某个站,由于不同搜索引擎权重的差异,也会反应在最终的统计结果中。

• 流量成分变化也会影响统计,例如开学的时候,若采样网站中娱乐部分占比较大,会放大其实际影响的效应。

• 此外,由于百度过于侧重自己的结果和阿拉丁,一般其比例较实际值略低一些。

 

以上介绍了两种不同的统计方法,可以看到,两种方法都有各自的优点和缺点,并且都会与实际数值存在一定的偏差。但是,由于基于网站抽样的整合统计不稳定因素过多,并且大多都是小型机构和个体发布的数据,所以在资本界,还是只认可基于用户采样的统计机构发布的数据。

 

对于流量变化,任何的统计方式都不能完美的表现,因为变化的流量网民层次分布、查询类别分布甚至国别分布等均不一致,而不同的统计均有自己的侧重点,使得最终的数值会多多少少有一些偏差。那在360推出搜索后,什么样的数值是有价值的呢?什么样的数据又是置信度较低的呢?

• 对于个人站长的话,一定不要看谁比谁多,因为受搜索算法影响太大。而看一个搜索引擎比例变化多少要更靠谱一些。而不同搜索引擎比例的增减,基于网站采样的整合统计也要比基于用户采样的准一些,因为用户的分布更准确,样本量也更大。

• 对于采用用户采样的统计机构,能看到很多宝贵的数据,包括360浏览器内不同搜索引擎的使用比例,点出到不同网站的比例,这些都是非常珍贵的。

• 至于各个搜索引擎的份额,这个大家只能综合多家信息去判断了。过去我选择的方式是通过搜狗的自有数据,以及百度指数的数值,并对CNZZ数据进行矫正,综合这些因素进行估算。现在的分析也是根据这些前置经验,结合现有的流量变化数据等信息做出分析的。

 

总之,在众多的数据中,都会有各自的问题,搜索引擎市场份额的统计是一件很难的事情,大家在看到各种数据的时候,也可以选择思考和辩证的看,以得到自己理解中的市场份额。

 

附:360搜索后发布的有价值的数据及点评

Hitwise(用户采样) @hitwise

可以看出,Hitwise采样用户较为高端,而百度比例较其他报告(如艾瑞)偏低,谷歌比例较其他报告偏高,但可看出两者下降趋势,可惜由于采样问题,对波动的响应不如网站采样准确(可对比51.la在24-28号的流量异动)。不过将百度图片列入存在不妥。

搜索引擎市场观察(五) <wbr>看懂数据背后的秘密,了解搜索引擎的份额统计

搜索引擎市场观察(五) <wbr>看懂数据背后的秘密,了解搜索引擎的份额统计

这份360导航的搜索引擎使用率数据较为有价值,可以看出,在360导航中切换默认搜索,对用户使用的直接影响

搜索引擎市场观察(五) <wbr>看懂数据背后的秘密,了解搜索引擎的份额统计

51.la(网站采样) @吕梁农民

由于CNZZ跟进不够即时,51.la发布的数据也具有较强参考价值,尤其是份额的变化部分。其中8.24-8.28之间360流量的异常变动,与我观测到的较为接近。

搜索引擎市场观察(五) <wbr>看懂数据背后的秘密,了解搜索引擎的份额统计

搜索引擎市场观察(五) <wbr>看懂数据背后的秘密,了解搜索引擎的份额统计


 

 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有