1.4 研究内容与方法
1.4.1 研究内容
在充分分析相关文献的基础上,基于传统的欺诈理论,本书首先试图针对以知识成果为导向的众包竞赛环境中的欺诈行为,利用多种机器学习方法进行对比分析,着重深入探讨各类型检测线索的有效性与价值。其次,由于数据来源包括平台文本数据、用户信息与行为数据、用户关系网络数据,涉及结构化与非结构化数据信息的量化,本书试图利用自然语言处理技术与量化方法,从平台的结构化与非结构化数据信息中提取语言与非语言线索,即一元特征,并利用社会网络分析方法从用户关系网络中提取社会网络指标,即二元特征。最后,本书以流程视角的输入-处理-输出(I-P-O)阶段划分为基本框架,根据各类型特征生成的时间顺序特点,选择表现最优的机器学习分类器构建一个智能化欺诈检测系统。总而言之,本书主要包括以下3个方面的内容:①众包竞赛发起方欺诈自动化检测中动静态环境下的语言与非语言特征的价值探索;②基于流程视角的分阶段众包发起方欺诈检测实时预警模型与框架设计;③社会网络分析在众包发起方欺诈检测中的有效性探寻。从结构上看,本书分6章展开,具体研究内容如下:
第1章,绪论。本章主要对本书的研究背景、研究问题、研究意义、研究内容与方法以及主要创新点进行了阐述。
第2章,文献综述。本章首先对众包与众包竞赛模式的相关研究进行了综述;其次介绍了线上欺诈检测的研究领域与方法;最后介绍了社会网络分析及其在欺诈检测领域的相关应用。本章为构建基于机器学习的线上欺诈预警实时检测框架提供了强有力的支持和论证。
第3章,动静态环境下的语言与非语言线索在众包发起方欺诈检测中的价值探索。众包作为一个线上平台,基于4种欺诈理论及其在线上环境的扩展应用,为探索4种类型的欺诈检测线索提供了一个完整的环境。本书所研究的众包平台上的在线信息包含4个维度,即静态语言信息、动态语言信息、静态非语言信息和动态非语言信息。本章利用自然语言处理技术与Python工具,从上述结构化与非结构化数据信息中提取4类欺诈检测线索,从而探索动静态环境下的语言与非语言线索在众包竞赛发起方欺诈自动化检测中的价值。
第4章,基于流程视角的众包发起方欺诈防控与预警。本章从流程视角来检测众包发起方的欺诈行为,重点研究众包竞赛不同阶段的输入-处理-输出(I-P-O)模型,并构建了一个智能化欺诈检测框架,通过对众包竞赛项目的自动跟踪和监控,实现了对风险因素的全程控制和预警。
第5章,基于社会网络分析的众包发起方欺诈检测。本章引入社会网络分析方法,分析了具有欺诈行为的发起方的内在结构和特征,并探究了如何利用社会网络的几个关键概念,即中心性、凝聚性和结构等价性有效地检测出潜在的恶意发起方。同时,本章研究首次尝试把社会网络分析的信息作为众包欺诈检测来源,将通过检验的特征加入上述智能模型,进一步提升预测效率。
第6章,研究结论与展望。本章对全书内容进行了总结,对研究中存在的不足进行了分析和反思,对于未来可能进行的线上欺诈检测与众包风险防控研究进行了展望。