第1章 引言
1.1 研究背景及意义
首先,随着互联网技术的快速发展,我国互联网产业在人们工作和生活中的应用范围不断扩大,如网上支付、互联网理财、在线教育、网上预约出租车、在线政务服务等,我国上网人数和网络流量持续增长。互联网在方便人们工作和生活的同时也带来了大量网络安全威胁,如网络诈骗、网络赌博、非法侵入计算机、传播计算机病毒、网上非法交易、电子色情服务、网络洗钱、网络毁谤等。为了躲避网络监管,网络流量中加密流量的比例不断增长,恶意用户或攻击者的技术水平不断提高,手段呈现出多样、复杂和隐秘的特点,他们试图躲避现有安全设备的检测,这增加了网络监测的难度。尽管网络的管理者采取了各类安全措施来保护网络,攻击者仍然可以利用网络中不计其数的主机群和各类操作系统的漏洞,甚至诱骗网络用户执行恶意软件。这些受感染的主机将给网络安全带来巨大的威胁。
其次,网络空间已成为各个国家、各个地区经济和政治的新战场。面对日益严峻的网络空间安全挑战,美、俄、日等许多国家把网络空间安全提升为国家战略。我国于2014年成立网络安全和信息化领导小组,明确提出建设网络强国的战略方针,以加强我国网络安全能力建设,深入推进自主可控的安全技术研发,提升网络安全技能。美国自2005年以来发布了多份网络空间安全战略文件。近年来,各种网络攻击和安全事件层出不穷,各类病毒、蠕虫、DDoS、特洛伊木马、扫描、探测等攻击给网络的正常使用带来了严重的安全威胁。
再次,网络异常行为带来的损失影响巨大。随着业务的“计算机化”,5G、物联网、虚拟现实、无人驾驶等技术促使网络流量急剧增长,在新的漏洞不断被发现、攻击技术不断被增强等因素的共同作用下,网络攻击正变得更加智能化和复杂化,传统的检测机制已无法提供足够的支持来保障网络环境安全。2021年,全球网络安全界遭受了勒索软件攻击、重大供应链攻击以及有组织的黑客行动的轮番“轰炸”,攻击目标涉及医疗、金融、制造业、电信及交通等重点行业。数据泄露的规模、漏洞存在的年限、影响设备的数量、破坏后果呈扩大趋势,其中46%以上的攻击流量来源于网站扫描,与网络用户行为密切相关。
最后,网络行为分析是异常网络检测中一个活跃而富有挑战性的研究方向。近年来,异常检测尤其是面向图的异常检测一直是学术界和工业界研究的热点。面向图的异常检测可应用于社会生活的各个领域,如金融、互联网安全、社交关系挖掘、电信诈骗检测等。
网络流量分析作为网络安全管理和监控的关键,是网络安全领域研究的重要方向,一直受到产业界IBM、TechTarget、Enterasys Networks、Arbor、Exinda等公司,以及学术界斯坦福大学、麻省理工学院、伊利诺伊理工大学、武汉大学、清华大学、中国科学院信息工程研究所、东南大学、四川大学、华中科技大学、济南大学等高校和科研机构的关注。据赛门铁克公司2017年的调查数据显示:全球范围内每年累计发生的安全事情超过10万亿起,而每天会检测出超过100万个恶意软件。大量的研究者致力于建立有效的解决方案,以检测网络攻击、恶意网络行为和异常网络流量,实现安全监测的目的。然而,随着新型业务模式及新兴技术的出现和应用,网络流量的结构、组成、规模呈现出复杂性、动态性和关联性,依靠人工和传统的检测技术难以理解和处理当下的海量网络数据,难以将它们转化为实用的情报。基于传统特征库的防火墙、入侵检测等设备的安全防御技术,由于必须在认识攻击特征的前提下才能进行有效防御,因此,这些检测方法难以应对与防御恶意程序变种、未知威胁以及新型攻击。由此可见,在信息化逐步发展、网络应用持续增长且不断深入、漏洞不断被发现、攻击技术显著增强等因素的综合作用下,越来越多的网络攻击行为具有主机群性、协作性、低密度和隐藏性,大量未知、新型的网络攻击层出不穷,如面向工业控制/金融系统的目标性攻击、基于社交网络与移动互联网的恶意传播和推送、针对物联网/智能终端/P2P网络/社交网络/网络游戏等的新一代大规模攻击。
面对上述异常检测问题,如何有效地弥补“传统设备”的缺陷,对阻断和防范新型威胁发生产生显著作用?如何通过模型与算法的优化,主动在千万级用户中(海量数据下)识别出不正常的行为和关联,有效提高防控的覆盖率和准确率?针对上述关键问题,迫切需要采取新的有效识别异常的安全威胁分析与异常检测方法,基于网络行为分析的网络异常检测技术应运而生。该技术通过构建用户画像的基线发现不期望的用户行为,能够通过网络层特征检测DDoS攻击,并通过应用层特征检测其他复杂攻击,实现基于流量和行为画像建模的“动态检测”。网络异常行为检测是网络行为分析和网络异常检测两种技术的交叉,它提供了一种网络安全威胁检测的方法,实现了对网络威胁事件和趋势的持续监控,提供了除传统技术(如防火墙入侵检测系统、防病毒软件和间谍软件等)以外的安全防护措施。网络行为研究通过流量揭示互联网运行规律,对推断网络事件、预测发展趋势具有重要意义。将网络行为分析技术运用到异常检测领域,通过对网络行为特征的理解、分析和建模,挖掘网络行为主体的特征、相互间的潜在关系和主机群属性,从而发现异常通信模式。不同于针对传统网络流量数据的网络异常检测技术,网络异常行为检测技术能够有效解决传统流量分析的异常检测中经常被忽略的网络行为主体之间的隐性信息问题。同时,传统异常检测技术的特征规则库来源于已知异常,更新周期长,而网络行为分析的异常检测技术是根据不同的网络环境动态提取并及时更新的,在实际网络环境中的适用性更强。
由此可见,网络行为分析的异常检测已成为网络安全领域的研究热点,到目前为止,国内外关于用户行为分析、用户画像及其相关理论与技术的研究取得了丰富的研究成果,主要集中于用户事件驱动下流量特性的演化过程,着重针对“流量特性和行为模式”进行分析,主要使用UNIX命令行为、系统日志等进行用户画像研究。但对于已有研究,一方面在网络安全领域的研究相对较少;另一方面,目前研究中大多数用户画像都是传统标签式用户画像,其标签主要是基于业务而制定的,因此可解释性较强且易于应用到业务策略和统计中;但是这种用户画像只是对数据单一维度的抽象,缺少对主体(或称为节点)间交互关系结构特性的抽象与分析,如果想要在不同业务之间进行泛化会很困难。而现实中用户是多变、多面的画像,急需利用图分析、机器学习、人工智能等技术来检测流量和用户或应用行为中的异常模式,实现对用户数据(行为序列、关系网络等)更抽象的表征学习(多维连续空间),从而实现多维度用户异常行为检测的整合分析框架,构造面向多场景、多领域的异常行为检测体系,在算法上实现无监督或配合人工调优的半监督学习,在数据来源上实现多维度的融合,在分析模型上实现动态、自适应,在功能上实现对低频次、长周期的数据渗漏行为的异常检测。
本书将从网络行为的多个网络行为主体出发研究异常行为检测问题,深入研究各网络行为主体的属性和本质,并提出网络行为轮廓构建及异常行为检测的相关算法。清华大学的朱应武等人指出评价异常检测能力的指标主要包括四项:检测率、实时性、全面性和新型异常行为的识别能力。本书的研究不但提高了单独的网络行为主体检测研究层面的全面性,还分别针对不同的行为特点定义了优化改进方法,提高了异常检测能力,弥补了传统方法在检测率、适应性和新型异常行为识别能力等方面的不足,可为复杂多变的网络环境下的异常检测提供新的更有效的技术手段,从而为网络异常预警和响应处理提供更加有效的支撑。
综上所述,本书的科学意义体现在以下几个方面。
1)研究动态复杂网络的用户行为画像的建模,对推动复杂网络的计算机网络安全相关问题的分析和研究、促进UBA技术的深度应用,具有重要的理论价值和前瞻性。
国内外研究者针对上述问题通过签名技术、统计分析技术和机器学习技术展开了大量研究。由于待解决问题的复杂性和技术本身的局限性,用户行为画像建模分析逐渐成为学术界关注的热点问题,成为网络安全解决方案的必备手段之一。一方面,复杂网络吸引了学术界的广泛关注,社会网络、细胞网络、人类关系网络、神经网络、Internet/WWW网络、学术合作网络和文献引用网络等各个领域的研究者开始用复杂网络理论研究各自网络的特性并分析用户行为模式;另一方面,基于UBA的异常行为检测是用户行为画像分析和异常检测两种技术的交叉,强调以“自学习”和“半监督”为核心,提供一种安全威胁检测的动态方法,UBA有效弥补了传统异常检测技术的短板,它融合大数据分析技术、人工智能技术、机器学习方法,通过流量揭示网络运行规律,对推断用户事件、预测用户行为趋势具有重要意义。
2)本书以网络流数据为数据源,利用图分析、机器学习、人工智能等技术来检测流量和用户或应用行为中的异常模式,实现对用户数据(行为序列、关系网络和演化机理等)更抽象的表征学习(多维连续空间)。本书以大数据和人工智能为背景,以流量活动为数据来源,结合“半监督机器学习”“复杂网络”“图演化”等理论与方法,探索基于动态多维特征和图演化的用户画像建模,实现“深度用户行为画像”,并结合实际网络环境、公开数据集和仿真软件进行实验分析,验证项目中相关理论模型的可行性和有效性。
3)本书研究的不仅是当前网络信息管理、网络安全研究领域中极具重要性与前沿性的课题,也是相关领域中兼具学术价值、理论价值和实践价值的课题。
大数据与人工智能引发了安全领域的巨变,用户行为画像建模问题已成为当前网络安全领域亟待解决的关键问题。本书可帮助读者在理论上更加深刻地认识用户事件和用户间行为的复杂性,实现多维度行为画像的整合分析框架;在算法上实现无监督或配合人工调优的半监督学习;在数据来源上实现多维度的融合;在分析模型上实现动态、自适应;在功能上实现对低频次、长周期的数据渗漏行为的异常检测。本书的研究成果将丰富用户行为画像、用户异常行为检测相关理论与技术的研究,实现:更为高效精准的端到端的网络流量分析;提高所提出的网络行为异常检测模型的置信度;对具体应用场景的网络拓扑进行分析,总结一般性的数据源字段与其统计特征的提取方式。