2.5 真实网络不是泊松分布的
随机网络中节点的度可以在0和N-1之间变化。由此引发的一个问题是,随机网络中节点度之间的差异有多大?或者说,大度节点与小度节点可以同时存在吗?本节,我们将通过估算随机网络中的最大节点度和最小节点度来回答上述问题。
假设我们的社交网络可以由随机网络模型来描述。这样一个随机社会也不是那么遥不可及:在这个社会中,我们会遇见谁以及和谁成为熟人都充满了随机性。
据社会学家估计,一个普通人大约认识1000个人。因此,我们假设网络的平均度为≈1000。根据我们前面掌握的关于随机网络的知识,对于拥有N≃7×109个人的随机社会,我们可以得出如下一些结论(进阶阅读2.B):
(1)随机社会中连通性最好的人(度最大的节点),大约有kmax=1185个熟人。
(2)连通性最差的人,认识大约kmin=816个人,和kmax或的差异并不大。
(3)随机网络度分布的标准差为σk=1/2。对于平均度≈1000的随机网络,其标准差为σk=31.62。这意味着一个普通人认识的人数在±σk的范围内,即介于968和1032之间非常狭窄的范围。
总之,在随机社会中,每个人的朋友数大体相当。因此,如果我们是随机连接在一起的,就不会有异常的人存在:没有非常受欢迎的人,也没有只有少数几个朋友的人。这一惊人的结论源于随机网络的一个重要性质:在大的随机网络中,大多数节点的度分布在附近狭窄的范围内(边栏2.4)。
边栏2.4
为什么没有枢纽节点?
为了理解随机网络中为什么没有枢纽节点——度非常大的节点,我们来看一下度分布(公式2.8)。
首先,公式2.8中的1/k!项大大降低了大度节点出现的概率。根据斯特林近似(Stirling approximation),有:
因此,公式2.8可以重写为:
对于度k>e的节点,括号中的项小于1。因此,对于大的k,公式2.9中与k相关的项,例如1/和(e/k)k,随着k的增加迅速减小。总之,公式2.9表明,随机网络中观测到枢纽节点的概率比指数下降得还要快。
上述结论明显和现实不符。实际上,很多人认识的人数远远超过1185。例如,美国总统富兰克林·德拉诺·罗斯福(Franklin Delano Roosevelt)的预约本中有22000个名字,这些都是他要亲自会见的人[16],[17]。与之类似,对Facebook社交网络的一项研究表明,有很多人的好友数达到了5000——5000是Facebook社交网络平台设置的好友数最大值[18]。要弄清楚前述结论和现实之间这些巨大差异产生的原因,我们需要对比真实网络的度分布和随机网络的度分布。
图2-6展示了三个真实网络的度分布以及相应的泊松拟合。该图展现了真实网络和随机网络之间的巨大差异:
图2-6 真实网络的度分布
度分布:(a)互联网;(b)科学合作网络;(c)蛋白质相互作用网络(表1-1)。绿色的线是泊松分布——通过测量真实网络的平均度而绘制(参见公式2.8)。真实数据和泊松分布之间的显著差异表明,随机网络模型低估了大度节点的度和出现概率,也低估了小度节点的数量。相反,随机网络模型预测网络中大量节点的度在平均度附近。
(1)泊松形式明显低估了大度节点的个数。例如,根据随机网络模型,互联网的最大度预计在20左右。真实数据表明,有的路由器的度可以接近103。
(2)真实网络中度的分布范围比随机网络所预计的要宽得多。这种差异可以通过图2-4所示的分布离散度σk看出。如果互联网是随机的,则预计σk=2.52。而真实测量结果表明,σinternet=14.14,明显高于随机网络的预计值。这些差异不仅存在于图2-6所示的网络,表1-1中列出的所有网络都具有该性质。
总之,和真实数据的对比表明,随机网络模型不能刻画出真实网络的度分布。随机网络中,大多数节点都有类似的度,不存在枢纽节点。与之相反,在真实网络中,我们观察到很多高度连接的节点,节点的度之间有很大的差异。我们将在第3章来解答这些差异产生的原因。