1.2.1 基于CiteSpace的用户行为画像建模相关文献可视化分析
1.全球视角
从Web of Science数据库中搜索用户行为分析、用户画像、异常检测的关键词完成检索,并通过选择领域、识别特定类别(包括研究性文章、综述性文章、会议文章)来过滤和确定相关文献。将数据导出后,用CiteSpace生成关键词共现知识图谱,共得到127个关键词节点以及307条关键词间连线,并得到关键词可视化界面,如图1-1和图1-2所示。
关键词节点的大小代表关键词出现的频次。图1-1中标签大小与其出现频次成正比,各点之间的连线反映了该领域关键词之间的合作关系及密切程度。从关键词热点图谱,可发掘大数据背景下用户行为画像研究领域的全球范围研究热点。频次高的关键词代表一段时间内研究者对该问题的关注热度,CiteSpace软件统计了关键词的词频及初始年的分析结果,词频显示出现的次数,次数越多表明该关键词的热度越高。图1-1中“anomaly detection”“intrusion detection”“machine learning”出现的次数很多,分别为196次、118次、96次,出现的初始年份均为2005。
图1-1 关键词共现知识图谱
图1-2 研究主题的演变图谱
通过研究主题的演变图谱(图1-2),可以将目前的研究内容归纳为以下两个方面,如表1-1所示。Ⅰ:“anomaly detection”“intrusion detection”“outlier detection”等与异常检测分析相关的名词。Ⅱ:“machine learning”“model”“algorithm”“identification”“classification”“neutral network”等与分析、识别、建模等内容相关的技术描述。
表1-1 关键词词频列表(词频大于90)
2.国内视角
从知网学术期刊数据库收集相关数据,运用CiteSpace对导出的相关文献进行关键词的可视化分析,最终通过关键词共现知识图谱来探寻共享经济和协同消费研究的热点。以“网络行为分析”“入侵检测”和“异常检测”为主题,在中国知网进行精确检索,将来源类别设置为北大核心、CSCD,可得到1640条信息。为得到较为理想的引文数据,对导出的文献信息进行再次筛选,删除相关度较低的论文,共得到843条相关信息。随后,在CiteSpace中进行数据格式转换,时间区间设置为1999~2019(经检测,初始年份为1999年),跨度设为1年。选择关键词进行初步可视化共现分析,以探索大数据环境下网络行为分析异常检测的热点和前沿演进。
随后采用图谱修剪算法(Pruning)的Pathfinder裁剪方法,可生成关键词共现知识图谱,共得到376个关键词节点以及854条关键词间连线,关键词可视化界面如图1-3和图1-4所示。
从关键词共现知识图谱可发现用户画像研究领域的研究热点;词频显示出现的次数,次数越多,表明该关键词的热度越高。图中“入侵检测”“复杂网络”“用户画像”出现的次数很多,分别为361次、236次、59次,出现的初始年份分别为2000年、1996年、2014年。
通过关键词聚类图谱,可以将目前研究内容归纳为以下三个方面,如表1-2所示。Ⅰ:“入侵检测”“异常检测”“攻击图”“网络攻击”等概念化名词。Ⅱ:“复杂网络”“用户画像”“数据挖掘”“特征提取”“大数据”等以网络行为为限定词的行为分析方面的内容;Ⅲ:“防火墙”“态势评估”“僵尸网络”“安全策略”等围绕安全防御技术的内容。
图1-3 关键词共现知识图谱
图1-4 关键词聚类图谱
表1-2 关键词词频列表(词频大于30)
通过CiteSpace产生的聚类标识对文献整体进行自动抽取,最终形成聚类图谱,可以比较全面、客观地反映某领域的研究热点。结合图1-3的关键词出现频次,通过CiteSpace自动聚类,得到可视化的聚类图谱(图1-4),根据关键词聚类图谱,系统统计出了最大的几个主题的聚类:“入侵检测”“复杂网络”“用户画像”“攻击图”“数据挖掘”“特征提取”“流量分析”“异常检测”。如图1-5所示,从发展趋势上看2016年后“用户画像”“大数据”成为该领域研究的热点与前沿。
图1-5 研究主题的演变