Python广告数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

2.2.6 指数分布

目前指数分布被广泛用于生存分析中,从机器的预期寿命到人类的预期寿命,指数分布都能较成功地提供结果。假设你现在在呼叫中心工作,可以使用指数分布模拟呼叫中心每次呼叫之间的时间间隔。其他类似的例子还有地铁到达的时间间隔、到达加油站的时间间隔、空调的寿命等。

对于任意随机变量x,若其密度函数为以下表达式f(x),则称它是服从指数分布的:

其中,参数λ>0,λ也称为速率。

对于生存分析,假定它已经存活到t时刻,则称λ为任何时刻t设备的故障率。

服从指数分布的随机变量x的均值和方差分别如下。

·均值:E(x)=1/λ

·方差:Var(x)=(1/λ)2

此外,速率越大,曲线下降越快,速率越小,曲线越平坦。

前面我们分别介绍了几种常见的数据分布形式,但很难说广告数据到底服从哪一种分布,因为广告交易的场景非常多,需要根据具体情况具体分析。例如要研究按CPC计费的广告点击量与广告费用的关系,结果可能是一条线性的曲线,表示广告费用会随着广告点击量的增加而增加;但研究单个用户广告曝光次数与点击概率的关系时,结果可能就是一条类长尾的非线性曲线,也就是说,随着曝光次数的增加,用户的点击概率总体呈下降的衰退趋势。这其实也很好理解,如果相同的广告重复曝光给同一个用户很多次,当超过一定次数之后就会引起用户的排斥和反感,进而影响其对广告的响应率。再比如我们想研究某媒体平台一天当中的用户广告请求量,你可能会发现凌晨的用户请求数比白天少,这是因为凌晨绝大部分用户都在睡觉,所以研究结果是一条根据时间实时变化的非线性曲线。