大话机器学习:原理|算法|建模|代码30讲
上QQ阅读APP看书,第一时间看更新

2.6 幂律分布

幂律分布(Power Law Distribution)也称为长尾分布,著名的Zipf定律和Pareto定律(二八定律)也是幂律分布的简单形式。详细解释大家可以参见百科。

在互联网中,大量现象服从幂律分布。例如一个网上书店图书的销售数量服从幂律分布,电商网站上产品的销售数量也服从幂律分布。在现实中,收入和人口数量之间的分布也是幂律分布,国家GDP收入按照区域数量来分也是幂律分布。

其对应的概率密度函数为:

fx)=cxrcr均为大于零的常数,幂律分布图形如图2-10所示。

大家可能会发现,幂律分布图形和指数函数挺像的。那么如何区分呢?我们针对幂律函数两边取对数,转换为下面的形式:

lnfx)=lncrlnx

y′=lnfx),x′=lnx,将其转换为:y′cx′,其对应的图形是一条直线。有时根据数据画出图形后无法确定是幂律分布还是指数分布时,可以对数据两边进行log-log运算,再转换为图形。如果图形基本是一条直线(线性函数),那么就可以基本确定为幂律分布而非指数分布。

图2-10