[转载]微博风云系统原理和指标体系
(2013-07-10 18:10:57)
标签:
转载 |
新版微博风云社交影响力评估系统V3,花了近三个月时间来重构,是一个大型分布式的用户社交数据存储,更新,分析,同步系统。目标是容纳五千万活跃用户的数据,每天能更新一轮。这个更新包括API数据的更新和核心指标计算两部份。需要克服官方平台对单个IP的访问限制和一个早期创业公司对硬件投入的限制。涉及到的平台和技术包括C/linux/mysql/redis/hadoop。以及一个自主开发的文件存储系统和缓存系统。
微博风云从2010年7月开始,共经历三次主要的升级:
V1: 核心引擎的开发时间总共只花了两个晚上,对用户粉丝的分析主要是基于一个小样本,从API拿帐号最近5000个粉丝来计算。对影响力的分析是一个很简单的公式,主要由粉丝数,粉丝的平均粉丝数,评论转发数构成。只有一台机器和共享带宽。
V2:2011年的上半年,由于大家对开放社交网络的持续关注,我们改进了微博风云的影响力评估系统。这一版的核心思想是想遍历整个社交网络,在我们的服务器上存储和更新所有活跃用户的帐号。但由于成本的限制和数据更新周期的技术难题,有很多问题没有真正完整的解决。而且我们想一致对每一个帐号都提供分析数据,大量的粉丝数在一百以内的帐号消耗了很多的精力和资源。但是这一版在指标体系和思路上有了很大提高。但由于样本范围和目标用户范围的不清晰,造成技术突破的目标也不清晰。最后留下一些遗留问题。
V3: V3版的影响力评估系统从2012年9月初开始设计,这一版微博风云我们已经确定重点提供认证帐号和粉丝数大于500的帐号的影响力评估。所以我们首先根据一定的标准划定了一个样本库,大约覆盖了几千万用户。重点分析目标帐号在这几千万人群中的影响力。这个样本库的总量是固定的,根据用户的活跃度变化决定是否入选。所以我们的关注率,就是指目标帐号被这几千万人关注的比例。如姚晨的关注率是15%,就是指这几千万人中有15%关注了姚晨。那么这15%的人群的整体质量,就是帐号的粉丝质量指数–PR值。V3版的影响力排名,就是由关注率和PR值的加权计算得出的。另外,我们提供了微风指数这样一个100制的打分。微风指数主要由用户的关注率,PR值,互动的质量,活跃度构成。计算公式比影响力排名要复杂,但看上去更直观,微博价值跟微风指数的计算参数基本一致,但具体处理有不少的区别。具体原理需要另外一篇文章来介绍。

加载中…