大数据处理利器——幂律模型--zz

标签:
it |
在P2P、网络科学、复杂系统、数据挖掘等相关领域中无数次的提到幂律模型以及该模型作用下的社会现象、网络现象,但一直没有很好的理解这个概念。先参考《大数据:互联网大规模数据挖掘与分布式处理》书中的介绍,给出较为准确的解释。
- 幂律度分布(Power-‐Law Degree Distribution)——自然图http://img.my.csdn.net/uploads/201301/30/1359517406_5471.jpg
- 幂律度分布(Power-‐Law Degree Distribution)——规律表示http://img.my.csdn.net/uploads/201301/30/1359517545_1464.jpg
- 两个变量在对数空间下呈现出线性关系:横坐标x和纵坐标y之间的关系为:log10y = 6.2log10x。http://img.my.csdn.net/uploads/201301/30/1359517899_4570.jpg
- 关于x和y的幂律的一般形式为log y = b+ a log x,如果增大对数的底(实际上没有影响),比如采用自然对数e作为方程两边的值,则有y = eb(ealog x )= ebxa,由于eb是一个常数,所以可以用常数c代替,于是幂律可以写成y = c(xa) ,其中a和c都是常数。这个推导解释了:网络中拥有连接数为L的节点占网络节点总数的份额,正比于L(-a)。
- 适用幂律定律的情形:Web图当中节点的度、商品的销量、Web网站的大小、Zipf定律等。