2.2 信息传播模型
根据维基百科的定义,信息传播是人们通过符号、信号进行的信息传递、接收和反馈等活动,也是人们彼此交换意见、情感,以实现相互了解和影响的过程[45]。传播动力学可以分为生物传播和社会传播。生物传播可以抽象为一个网络中病毒的感染过程,每次接触导致感染成功的概率与之前接触无关,它是一个简单的传播过程,如计算机病毒传播过程。社会传播可以描述为社会创新、健康行为、谣言等社会行为或者信息在人类社会网络中的扩散过程。社会舆情是用户通过互联网对社会和生活中的热点、焦点问题所持有的具有影响力、倾向性的观点和意见的集合[46]。社会舆情具有爆发快、覆盖面广等特征,可使相关话题和事件在短时间内形成强大的社会舆论场,由此产生的社会影响甚至能在一定程度上改变事态发展的轨迹。关于社会网络舆情用户关系的研究包括关键节点和意见领袖的挖掘、节点影响力的度量、用户行为分析等。主流媒体与意见领袖通过互联网平台在舆论引导方面起重要作用,其在信息更新速度和权威性、真实性、即时性等方面具有较大的优势。
事实上,社会影响力是信息在移动社会网络中传播时产生的。移动社会网络具有极强的交互性、即时性和快速传播的特点,因此热点事件或不良信息能够在网络中快速蔓延,若在短时间内没有对不良信息的传播进行有效控制,或不能有效进行正确的舆论引导,则会损害用户的经济利益和名誉利益,给网络环境乃至社会带来恶劣的影响。
通常把移动社会网络建模成一个有向图G=(V,E),其中V代表节点集;E代表边集。节点代表移动社会网络中的个体,而从u到v的连边代表节点u和节点v之间的关系。这种关系是定向的,主要关注影响关系,即一个节点u是否容易影响另一个节点v,而这种影响关系通常是定向的、非对称的。独立级联模型(Independent Cascade Model,ICM)[34]和线性阈值模型(Linear Threshold Model,LTM)[47]最初都是在数理社会学中研究的,它们把节点分为活跃的和不活跃的两种可能的状态,直观地说,当节点v接收网络传播的新信息、新思想和新产品时,可以看到节点v的活跃状态,而非活动状态表示节点v没有接收新信息、新思想和新产品。独立级联模型最初是由Kempe等[34]在相互作用粒子系统的模型基础上提出的,它与传染病模型有关[48],该模型的主要特点是沿拓扑图中每条边的扩散事件都是相互独立的。社会学家提出用阈值行为来模拟这种扩散,当目标接收的所有正信号的聚合函数超过某个阈值时,目标即被激活[47]。Lu等[49]提出了一种捕获竞争信息的LT扩展模型,称为K-LT,该模型与其他竞争传播模型的不同之处在于它能满足某些理想的性质。
此外,传染病模型也是移动社会网络信息传播过程中常用的传播模型。传染病模型最初用于研究包括人类在内的生物种群中的疾病传播问题。从20世纪初开始,人们提出并研究了各种传染病模型。近年来,研究人员也将传染病模型应用于移动社会网络中的信息影响力传播研究中[50]。经典的传染病模型是完全混合模型,因其假设每个个体都可能与其他个体直接接触,从而在一个时间单位内潜在地传播疾病。这些经典模型通常被视为连续时间模型,并应用微分方程对种群的流行动力学进行分析或数值计算。在传染病模型中,每个个体在几种可能的状态间转换,这些状态通常包括S(Susceptible,易受感染的)、I(Infected,已感染的)和R(Recovered,已恢复的)。状态为S的节点本身没有疾病,但在与已感染的节点接触时容易感染疾病;状态为I的节点已感染疾病,在接触时可以将疾病传播给易感节点,感染率很高;每个节点都允许状态为I的节点转换为状态R,但不能从状态R转换为任何其他状态,这意味着已感染的节点从疾病中恢复,并且变得对进一步的感染免疫。根据上述转换规则,最简单的模型只允许每个节点有S和I两个状态以及一个从状态S到状态I的转换,也就是SI模型。另一个常用的模型是SIS模型,在该模型中,已感染的节点可能以一个时间单位的概率转换回状态S,从而使节点再次变得易受疾病影响。
现有的网络传染病模型的研究主要集中在确定各种网络条件下传染病的阈值上,或是不同模式下的免疫策略。阮中远教授[51]介绍了2001—2018年针对复杂网络中流行病传播的一些重要研究成果,重点关注以下4方面的内容:基于接触网络模型的传染病传播、基于集合种群模型的传染病传播、流行病传播的预测和流行病传播的控制。这些研究成果从复杂网络的角度加深了人们对现实世界中流行病传播的理解,使得对真实流行病传播的预测和控制成为可能。黄宏程等[46]考虑社交网络强弱关系对信息传播的影响,提出了一种基于严格可控理论的信息传播控制方法,以对信息传播的促进或抑制进行有效控制,为社交网络信息传播控制提供新方法和思路。为了刻画人口统计和城市间通勤对传染病传播的影响,Yin等[52]利用SIR传播模型提出了一种新的双城流行病模型。Jiang、Yan和Wang[53]为了研究产品在市场中的扩散,提出了一个基于传染病学方法的病毒产品扩散模型,用于研究产品在市场中的销售情况。该模型为如何通过社会传播来设计有效的营销策略提供了有用的见解。Ariful[54]在SIR传播模型的基础上,对信息传播和疾病扩散两层网络结构做了分析,这为研究移动社会网络中的信息传播提供了新思路。之后,Wang等[55]又提出了一种新的基于两层多重网络的传染病模型,探讨了正预防信息和负预防信息对传染病传播的影响。该模型中有两层网络,其中一层网络表示正、负预防信息竞争性传播的社会网络,另一层网络表示传染病传播的物理接触网络。该模型将移动社会网络中信息传播与物理网络中传染病传播的特点很好地结合起来,具有十分重要的实际价值。
在移动社会网络中,随着信息传播模型的发展,不仅人们受益于社交网络快速传播信息的特点,在市场营销、电子商务推荐和网络通信等领域取得了巨大成功,热点事件或不良信息也在社交网络中快速地蔓延。近年来,信息传播控制引起了国内外学者的广泛关注和研究,尤其是如何以较小的代价在合适的时机选择最佳控制点,对大部分甚至整个网络的信息传播进行控制,从而降低不良信息传播带来的负面影响,对于国家战略、社会管理和社会经济运行都具有十分重要的意义。在社会计算学中,谣言被定义为“A statement whose truth-value is unverifiable or deliberately false”[56],即消息的结果无法验证或是故意虚假的陈述。Emma等[57]为谣言提供了更广泛的定义:“Any kinds of informal information,not from official sources-without specifically considering its vercity”,即所有不是来自“官方”的非正式信息都是谣言,不管有没有考虑其真实性。社会心理学的研究人员[58]则用不同定义来描述谣言:“Rumoring,in this perspective,is a collective activity that arises in conditions of uncertainty and ambiguity as groups attempt to make sense of the information they have”,即从社会学的角度看,谣言是一种集体活动,它是在不确定和模棱两可的情况下产生的,因为每个人都试图按照自己的想法来理解其所掌握的信息。
抑制谣言传播的方法大致分为两类,分别是阻止谣言的发布者传播信息和阻隔谣言传播过程。而后者又可以分为破坏信息传播路径和发布具有竞争关系的反谣言信息两种方式,但是破坏信息传播路径在阻碍虚假信息传播的同时也会影响正常信息的传播,因此在传播过程中利用信息的竞争关系,发布反谣言信息来抑制谣言传播是行之有效的方法。Chen等[59]提出了独立级联模型下的不确定源的负面影响阻塞最大化方案。Zareie和Sakellariou[60]对解决社交网络中最小化错误信息传播问题的方法进行了分类。Song等[61]提出了一种复杂网络中的传染病传播模型,该模型假设节点具有异质的易感和接触偏好,易感节点愿意将资源共享给邻居节点。密歇根州立大学团队[62]研究了信息和网络特征对Twitter健康信息传播的影响,讨论了通过社会媒体病毒传播健康信息的理论和实践意义。Peng等[63]提出了基于大数据影响建模的社会网络免疫方法,该方法为防止恶意软件或恶意消息在社交网络中的传播提供了一种有效的解决方案。Kumar等[64]介绍了一种在谣言传播和谣言控制同时发生的情况下恢复节点的模型。Daum、Kuhn和Maus[65]同样从图论的角度出发,考虑了一个节点入度限制模型,设计并证明了在两种协议的不同版本之间的谣言传播时间的指数分离。Askarizadeh和Ladani[66]提出了一种软谣言控制模型,即人们参考自己信任的人来避免谣言传播。Yao等[67]设计了谣言澄清级联模型,以实现在给定的时间内付出最小的代价来澄清谣言。Hosni和Li[68]研究了如何降低突发新闻中出现的恶意谣言的影响这一问题。此外,他们还研究了如何通过减少基于用户个人和社会行为的谣言来降低对多元在线社交网络的影响[69]。Askarizadeh、Ladani和Manshaei[70]提出了一种基于用户特征和社会情境的谣言传播图进化博弈模型。Gong等[71]提出了一种新的基于结构洞的方法,用于控制社交网络中的公众舆论。
早期的谣言检测研究主要基于传统机器学习方法[72]。研究人员设计各类与消息真实性相关的特征,在将其从消息数据中提取后,使用支持向量机、决策树等分类器对消息的真实性进行判断。该方法虽然取得了一定的提升效果,但其主要取决于所设计的特征质量,而这又依赖于研究人员的专业知识,并需要消耗大量的人力物力。随着深度学习的兴起,越来越多的研究使用深度学习方法进行在线社交网络中的谣言检测。该方法主要利用神经网络等深度学习模型,自动从相关数据中提取对应的特征向量。与人工设计的特征相比,深度学习模型通过训练学习得到的特征向量具有更本质的表征能力,能够自动获取更深层次的隐藏信息,因而成为当前在线社交网络谣言检测研究的主要方法。在谣言检测的研究初期,研究人员通常会选择一些可以直接获得的显式特征用于鉴别谣言。例如Castillo等[73]提出了基于消息、基于用户、基于话题和基于传播的特征集合,其中包括文本长度、用户粉丝数、用户情感倾向、传播树深度等一系列特征,并使用这些特征训练了一个J48决策树模型,用于判断话题是否可信;Qazvinian等[56]提出了与文本内容、转发关系及微博特定模因相关的特征集合,并通过朴素贝叶斯分类器验证了这些特征在识别谣言时的有效性;Yang等[74]首次在微博数据集中进行谣言检测研究,其提出了基于客户端和基于位置的新颖特征,将用户使用的客户端类型和微博中事件发生的实际位置都纳入谣言检测的范围,支持向量机模型的实验结果证明了这些特征能够帮助识别微博中的谣言。谣言主要是以文本形式在社交媒体中传播,因此有部分学者从消息文本入手,试图从中发现谣言与非谣言在语言方面的差异。有些学者尝试从词法的角度来判断谣言。例如,Kwon等[75]统计了文本中与特定情感相关的词语比例,用于表示用户对谣言与非谣言的不同反应;Zhao等[76]发现消息文本中存在对事实的询问和对事实产生的质疑两种类型的语言模式,并设计了相应特征用于区分这两种模式;Ma等[77]使用自然语言处理领域常用的词袋模型和Word2Vec模型[78]学习文本内容的特征表示,以进行谣言检测与谣言分析。有些学者则尝试从话题的角度来判断谣言。例如,Wu等[79]定义了一组与主题相关的特征,用于总结微博文本的语义;Jin等[80]根据文本涉及的事件主题对其进行聚类,并通过聚合消息级别的特征来获得主题级别的特征,以减少噪声对数据的影响,并保留消息级别的大部分细节。