众包平台中的欺诈检测与风险预警
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 研究问题

虽然众包有效利用网络大众智慧,降低了创新成本,扩大了企业的创意创新源,优化了社会资源。但是,基于互联网的众包平台具有低进入壁垒、空间和时间分离以及匿名性的特性,平台用户的身份和行为是动态变化且不可控的,这使得众包平台组织边界模糊,管理活动的不确定性较大(陆丹,2013)。同时,互联网的开放性使得技术和知识的共享程度增大,而工作者的知识成果保护风险也相应加大。然而,目前众包平台一定程度上忽视了这一风险,平台规则明显更加有利于保护发起方的权利(Massanari,2012)。工作者创造的知识成果是一种无形资产,因此会受到“阿罗信息悖论”(Arrow information paradox)的影响,其指出“信息对购买者的价值需要购买者了解才能确定,但是购买者一旦充分掌握该信息是否具有购买价值,信息的价值就会丧失,因为这导致了事实上的信息转移而没有对信息的生产者给予补偿”(Arrow,1972)。同样的,发起方需要事先对工作者提供的所有解决方案有详细和完整的了解,才能最终选择最佳解决方案,这为发起方提供了在不支付奖励的情况下窃取解决方案的机会。为了消除或者减轻这一悖论的负面影响,有必要找到一种简单有效的方法来使众包工作者的知识成果得到保障。但是在众包竞赛环境下,工作者提出的方案往往还不够成熟,不足以得到专利保护,因此探寻有效的方法,提前避免该风险的产生以及及时控制风险后果、弥补损失就更为重要(Natalicchio et al.,2014)。

通过对中国某知名众包平台的观察发现,在众包竞赛项目中,工作者对发起方的恶意行为有很多不满和抱怨,他们会向平台举报或投诉极不合格的中标者,质疑中标方案。笔者从工作者的反馈与投诉中提取了部分内容,如表1.1所示。

表1.1 众包竞赛工作者关于发起方欺诈与平台不作为的投诉

表1.1(续)

发起方的众包竞赛项目欺诈案例可分为“双重身份欺诈”“解决方案挪用”和“拒付奖励”三种类型(Pang,2015)。盗用解决方案的一个典型例子是,发起方复制和修改一个工作者的最佳解决方案,然后通过新的账户或朋友账户再次提交,最后选择自己提交的解决方案。这也是本书中被平台公告处理的最常见的欺诈方式。优秀作品得不到应有的奖励,因此工作者向平台报告,并提供一些支持性证据,如发起方和中标者注册时间、名称和地点相似。但是,由于人工处理和验证工作量大,工作者对平台的响应效率也表达了不满。因为平台只能依靠工作者的举报和提交作品的比对来判断发起方的欺诈行为,即使平台公告确认发起方的评标行为违法,平台也只能取消中标信息或者暂时关闭中标人账号,要求发起方重新评标,却很少处罚发起方,因为很难有实质性证据证明中标人与发起方合谋。可以看出,平台有处理问题的意愿,但是每天都有大量的投诉与举报,仅仅通过人工来判断,所耗费的人力物力可能是平台无法长期承担的。可见,如何高效地检测发起方的欺诈意图,即时采取惩罚措施,建立与优化众包中的风险监控机制是每一个创新众包平台都高度关注的问题。

此外,当众包市场成为一个“柠檬市场”,可能导致用户参与度逐步降低,并最终导致众包市场的失败。Akerlof(1978)在关于信息不对称的论文中提出了柠檬市场理论。一方面,在无法评估产品/服务质量的市场中,卖方比买方拥有更多的信息,这将导致高质量的产品/服务离开市场,因为他们只销售市场平均质量的产品/服务。同样,在众包市场中,工作者就是卖方,他们出售自己的作品和服务。由于发起方的恶意行为,高质量的作品得不到应有的回报,工作者不愿投入大量的时间和精力进行高水平的创新,只提供质量一般的作品,这将使众包市场的作品质量逐渐下降。另一方面,该研究还探讨了“不诚实成本”,不诚实成本不仅取决于买方的损失,而且包括将合法业务赶出市场所造成的损失。同样,诚信发起方的项目也会受到影响,即他们无法获得预期的优秀和满意的作品,这意味着其他合规发起方可能也不愿意投入太多的奖励。因此,市场会逐渐恶化,甚至最终完全消失。

由此可知,发起方的欺诈行为助长了众包市场中的柠檬效应,严重损害了开放式创新和众包竞赛的发展。平台想要积极应对这一问题,然而,由平台工作人员手动判别欺诈发起方既费时又费力,但智能化自动检测发起方的欺诈行为十分具有挑战性。近年来,关于线上智能欺诈检测的研究越来越多,涉及钓鱼网站的识别(Goel et al.,2017;Zahedi et al.,2015)、线上动态交流诈骗(Ho et al.,2016;Zhou et al.,2004a)以及众筹欺诈项目的检测(Siering et al.,2016)等。如果欺诈者与普通人相比在语言或非语言行为上存在不一致或者异常,将这些行为有效量化,那么欺诈就能够被自动化机制检测到(Johnson et al.,2001)。在众包竞赛的情况下,这种不一致或者异常在静态和动态环境中均可以被捕捉到,并且可以用常用的语言线索或更具体的非语言线索来表达。根据对面对面欺诈线索研究的综述分析,DePaulo等(2003)证实了多种语言和非语言线索对欺诈检测是显著有效的。Ho等(2016)发现,线上欺诈也可以通过语言和非语言线索检测,如认知负荷、情感过程、反应延迟和重复。语言线索与口语或书面文本直接相关,而非语言线索则侧重于在一个人产生语言信息时所表现出的附属特征(Zhou et al.,2004)。根据在线交流和面对面交流在同步性上的相似程度,面对面交流中的各种非语言行为可以映射到众包平台上的在线行为。虽然缺乏在面对面的环境中可以观察到的生理性的非语言线索,但是本书认为四因素理论(four-factor theory,FFT)和泄露理论(leakage theory,LT)中的四个因素和泄露机制仍然可能与在线环境相关。例如,在面对面的交流中,说谎者为了确保一致性,倾向于长时间的思考,也就是多停顿和长停顿,这一点我们可以在网上与电子邮件回复的时间间隔相匹配。比面对面交流更有利的是,线上环境还可以捕捉到用户的整个在线行为轨迹,如过去的参与行为或决策行为。先前的文献已经证实,各种语言线索,如单词、句子和自我参照的数量、情感以及在线环境中的时间、空间和感知信息,都可以作为有用的欺诈检测指标(Hancock et al.,2009;Zhou et al.,2004b)。

然而,不论是金融财报欺诈、电信欺诈、众筹发起方欺诈还是虚假评论,这些研究对象都是以金钱为目的的欺诈方,其检测线索无论是文本语言线索还是其他信息特征,都有可能在众包竞赛这种以知识成果为驱动的欺诈用户检测环境中效果不佳或者失效。无论是在线上环境备受关注的语言线索,还是因获取难度大而关注度不高的非语言线索,在众包环境中都具有深入探讨的价值。同时,在开放式创新平台中,二元属性即关系网络可能比单一来源的属性更能有效识别用户的潜在行为。学者们已经将社会网络分析应用于各种类型的欺诈检测,如反馈声誉欺诈、在线拍卖欺诈、汽车保险欺诈等(Bodaghi et al.,2018;Chiu et al.,2011;Wang et al.,2005;Yanchun et al.,2011)。众包平台也可以被视为一个网络结构,每个用户都是网络的一个节点,用户之间的互动形成了一个庞大而复杂的关系网络(Tung et al.,2017)。一些学者从社会网络的角度探讨了开放创新平台的网络结构特征及其影响。例如,Zhang和Wang(2012)对维基百科的研究表明,用户在网络结构中的位置会影响他们在社区中的贡献行为。Lu等(2017)认为,核心—边缘的网络结构不利于用户在众包式论坛上进行知识共享。因此,对在线社区的网络结构进行研究有助于理解开放创新平台的用户行为,从社会网络的角度探讨具有欺诈行为的发起方的网络结构特征,从而准确发现众包发起方的欺诈意图,具有重要的理论和现实意义。

不仅如此,在众包背景下,发起方的目标是免费获得解决方案,其欺诈意图产生的时间是不确定的,可能是在项目开始之前,也可能是在项目实施的过程中。在众包项目的不同阶段,可获取的线索信息的数量和价值是不同的。因此,根据不同阶段的信息获取特点对发起方的欺诈意图进行更为清晰的探索,就可以提前防范和控制风险。众包竞赛的阶段化流程使其线上欺诈的研究不再局限于检测,也就是事后弥补;分阶段的检测框架可以从事前预防与事中控制着手,对线上欺诈进行意图捕捉与预判,并及时采取相应措施,有效避免后续欺诈行为的产生以及降低后续的纠纷处理成本,真正做到风险的防范与控制。

此外,预测分析包括预测模型的方法以及评估预测能力的方法,这些方法不仅有助于创建实际有用的模型,而且在理论构建和理论测试中与解释性建模一起发挥重要作用(Shmueli et al.,2011)。机器学习作为一种预测分析工具,可以从训练数据或以往的经验中自动学习隐藏的知识或模式。多个领域的基于机器学习的线上欺诈检测中,关于分类器的选取,逻辑回归(logistic regression,LR)、支持向量机(support vector machine,SVM)、随机森林(random forest,RF)、人工神经网络(artificial neural network,ANN)以及集成学习等算法均被广泛使用,但目前还没有在任何数据集上表现都绝对占优的方法(Alkhateeb et al.,2019)。因此,本书将采用多种机器学习算法进行模型训练,最终选用表现最好的分类器。

综上所述,本书试图构建一个基于多源数据结构的时序性智能化欺诈检测框架,通过对众包竞赛项目全过程的自动跟踪和监控,实现对风险因素的全程控制和预警。具体而言,为了深入研究众包竞赛中发起方的欺诈行为,及其风险防控机制与策略,本书分别对以下问题进行了探讨:首先,本书对众包竞赛发起方欺诈自动化检测中动静态环境下的语言与非语言特征进行价值探索,验证传统的欺诈检测线索在以知识成果为导向的众包竞赛环境中是否有效;其次,基于上述有效性的探索,本书提出基于流程视角的分阶段众包发起方欺诈检测实时预警模型与框架设计,验证是否能构建有效的欺诈预警系统,完成对众包竞赛项目的自动跟踪和监控,实现对风险因素的全程控制和预警;最后,由于在开放式创新平台中,二元属性即关系网络可能比单一来源的属性更能有效识别用户的潜在行为,本书进行了社会网络分析在众包发起方欺诈检测中的有效性探寻,验证社会网络分析的相关指标是否能有效区分欺诈与非欺诈发起方,并提高模型的预测能力。