1.2.5 主机群行为研究现状
当前,利用图分析技术研究主机群行为的研究领域主要面向物理、生物和社会关系,如合作者、电网、交通、P2P网络、联合采购产品、文章引用,在计算机网络领域的应用主要面向Web页面引用、收发邮件、电话通信等数据的研究。主机群行为研究揭示和分析社区演化事件,涉及两个重要的研究领域,即社区发现和图的动态演化。Girvan和Newman等人于2002年定义了社区结构检测方法后,出现了大量关于主机群行为检测方法的研究。同时,另一部分研究者Barabâsi等人开始着手对度分布、聚类系数等属性进行分析、解释和建模动态演化的研究。但现有研究者很少关注社区发现和整个动态图的演化。Chakrabarti等人开始着手分析社区演化本身的研究。尤其值得关注的是Granell等人定义了一个基准描述演化,并将它广泛应用于生物医学、社交网络、学术论文应用分析等领域。Jakalan等人利用边界流量构建二分图,采用了社区发现方法,聚合具有相似社会行为的主机,识别异常IP地址。此外,Asur等人、Palla等人、Greene等人、Bródka等人、Chen等人和Tajeuna等人都从不同角度定义了动态演化事件,尽管上述研究中演化事件算法的定义和方法有所不同,但其定义从整体上都具有相似性,常见的演化事件如表1-3所示。
表1-3 演化事件
这些研究涉及的数据包括电话通信、合作作者、维基百科、药物、移动运营、邮件等数据集,其共性在于能够通过图实现形式化,从而挖掘网络节点之间的交互关系。鉴于不同数据集的领域属性,演化事件和识别方法存在一定的差异,研究者开始针对如何聚类主机群、定义演化事件展开相关的研究工作,如表1-4所示,检测的演化事件也有所不同。
表1-4 演化事件研究工作
大量现有研究表明网络行为具有分布式传播和演化的属性,网络行为具有空间属性,网络行为主体之间,尤其是具有交互关系的网络行为主体之间具有强相关性。现有研究工作表明,面向具有主机群性、协同性和大规模性主机的网络交互行为、通信模式,无法有效地从主机的网络个体行为特征的角度进行分析。
综上所述,已有研究工作主要关注分析图节点关系的静态属性和社区本身,目的是将观察事实抽象为图模型后进一步理解和解释实际行为。对于网络行为潜在的社会化关系,没有考虑网络交互过程对网络行为主体关系和属性的影响,导致网络主机群事件的难以感知等。因此,本研究以异常检测为目的,将主机群的研究与网络行为实际属性相结合,对网络行为中汇聚成群的主机群进行深入分析。