1.1 大数据平台异常检测分析研究的背景与意义
大数据技术的应用范围越来越广,Hadoop、Spark等开源技术的发展使得人们能轻松处理和分析大数据。但大数据技术体系中的各个组件本身并没有自身的安全机制,组件间由于使用RPC协议进行通信,因此也没有安全机制;从分布式集群层面看,数据一致性、数据碎片化与备份机制也没有安全保障。伴随着网络技术的不断推进,越来越多的应用会部署在大数据平台上。与此同时,互联网中数据的爆炸性增长、各类效率框架组件的开源,都使得大数据平台逐渐完善。
大规模的数据不断叠加导致平台中出现异常的概率越来越大,大数据平台的安全不能有效地从平台技术的体系结构层面得到保证,这使得大数据的应用与发展面临巨大挑战:大数据平台架构越来越复杂,而大数据平台对抵御新风险的需求也在持续增加,例如,黑客对网站进行的DDoS(Distributed Denial of Service,分布式拒绝服务)攻击使得大数据平台服务器瘫痪、节假日期间海量用户产生突发流情况导致大数据应用崩溃、病毒与木马的泛滥使得应用程序中的个人信息发生泄露等,给个人及社会带来了难以估量的经济损失;传统的异常检测系统不适用于大数据平台的运行评估,特别是当大数据平台搭载多个应用时,通常的性能评价体系已不能真实反映平台的运行状况;大部分应用平台在面对海量流量时的异常处理不够及时,从而导致故障响应不及时。
以上挑战使得大数据平台的安全性成为产业界非常棘手的问题,而且对大数据平台的新风险安全需求的迫切性也在持续上升,然而目前还没有成熟的解决方案,为了准确、及时地发现大数据平台的异常,研究和开发大数据平台异常检测分析的关键技术具有重要的意义。
目前大数据平台的安全性主要由它的底层设施来提供保障。而对于下层设施的安全机制来说,如果上层大数据平台缺少对异常事件的语义解释,那么下层设施的安全机制没有能力全面检测与分析上层大数据平台的异常事件。
就大数据平台背景下的异常特性而言,主要从服务器日志、网络流量等方面进行检测分析,这些海量的异常数据具有快速性、无限性、多变性与连续性[1]。对这些数据手工进行分析十分困难,且耗时耗力。这几年来,对异常检测的研究深受各界的关注,并广泛应用于入侵检测、故障诊断、身份辨识、邮件过滤等领域。对于病毒与木马、系统漏洞等异常,通过防火墙与安全助手等软件能够很好地解决。但是,对于突发流异常事件与DDoS攻击这类网络异常情况,传统的异常检测技术显然存在一些局限性。正如文献[1]中提到的,数据蕴含着多变性,基于专家规则库的检测方法很难完整地检测上述两类异常。另外,海量数据的检测过程极大地耗费了以往非分布式的计算资源,这就需要利用大数据[2]、机器学习[3]、统计分析等技术,在合理的时间范围内精准地检测出异常。
传统的异常检测技术检测异常的方式利用的是网络底层由网络攻击形成的网络流量,然而随着网络底层防御系统的逐步完善,以及与真实用户直接接触的Web应用的大量出现,作为Web应用载体的应用层HTTP协议越来越复杂,从而导致应用层异常逐渐增多。网络上的攻击方式已从单机病毒发展到如今的网络病毒、垃圾邮件、蠕虫、僵尸网络、零日漏洞[4]等;应用层程序的增多使得攻击行为转变为以盗取用户信息为目的的经济犯罪行为。从安全防御的角度看,尽管有10多类安全防御方式,包括单一的防火墙、网络密码、入侵检测系统(Intrusion Detection System,IDS)、虚拟专用网、网络反病毒、反垃圾邮件、内容过滤、网络审计、可信计算机、统一威胁管理、公钥基础设施、动态密码认证、设备认证等,然而,网络安全事件仍然频繁发生。据统计[5],2015年上网用户量达到约7.31亿,而其中手机用户量达到约6.95亿。由于网络底层防御系统逐渐完善[6],因此基础通信网络的安全防护水平得到较大的提升,但是普通用户及企业活跃的互联网面临的网络安全威胁仍在加剧。自2014年起,利用互联网传输协议的漏洞发起的DDoS攻击日益增多,增大了攻击防御和追踪的难度。另外,DDoS攻击以商品服务的形式在互联网上公开交易,从而使攻击者能够以较低的门槛及代价发起DDoS攻击。2015年,攻击流量在1Gb/s以上的DDoS攻击次数约有40万次,每天的攻击次数达到一千多次。虽然IDS被誉为动态网络防护体系的核心,但是随着攻击手段的多样化,攻击者善于伪装成正常流量使得IDS无法分辨攻击行为[9]。Symantec通过调查分析,对比2014年,安卓手机恶意软件于2015年增长214%,而网站攻击及恶意扫描于2015年增长117%。这一结果表明,对应用层进行攻击是当今攻击者最直接、最频繁的攻击手段。
同时,大数据时代的到来促进了Web应用的增多,而搭建在大数据平台上的Web服务器已成为搭载大量用户信息和体现运营商利益的共同体。如今针对Web服务器的攻击更多的是为了谋取经济利益。由于IDS系统逐渐完善,而Web用户的安全意识不强,因此攻击者诱惑Web用户访问病毒软件,从而盗取用户信息,再以用户身份登录Web服务器获取利益。
综上所述,Web应用的异常检测对于大数据平台的安全性研究有着至关重要的作用,它直接关系到用户的切身利益。由于Web应用直接反映了用户行为的轮廓(攻击者与正常用户访问的行为逻辑有所不同),因此,应用层的Web应用分析成为大数据平台异常检测的研究热点[6]。而且,IDS需要大量的网络底层流量信息来支持信息检索和数据挖掘,这些信息包含用户信息,公开数据较少,但是以Web日志形式存在的Web流量却易于获取[10],这也给本书的研究提供了基础。
在大数据Web数据分析系统(如物联网、电信网等)中,仍然具有检测困难[7],这是因为系统各个时间段的流量存在差别、各终端产生的数据结构和流量也不同,所以从大规模流量中发现密度极小的异常具有相当大的挑战。如何通过Web流量挖掘用户行为中的真实目的、实时地检测出异常是学术界研究的热点,也是本书的研究方向。
随着互联网和信息技术的发展、软件技术的更新,系统中的应用规模不断扩大,导致系统变得臃肿,因此越来越难维护。Martin Fowler[8]提出“微服务”后,微服务变得异常火热,各大公司都开始开发属于自己的微服务架构。简单地说,微服务是一种系统架构风格,可以把一个独立的应用分解为多个小的服务,每个服务运行在独立的进程中,服务通过HTTP的一个API资源进行通信。微服务架构具有敏捷开发、自动部署、去中心化、服务组件化等优点,可以使产品更高效、快速地交付,后期维护更加方便,扩展更加灵活。