前言
2009年,以哈佛大学拉泽尔教授为首的15名顶级学者在《科学》(Science)发表署名文章,首次提出“计算社会学”(Computational Social Science)这一概念。计算社会学以移动互联网、社交媒体、物联网等新兴技术为基础,借助于统计理论、知识推理和人工智能等理论体系,从跨域、连续、非结构化的海量数据中分析个体的静态属性,洞察群体和宏观社会的动态变化,是一门蓬勃发展的综合性交叉学科。计算社会学已经广泛地应用到政治、经济、社会文化、公共健康等多个领域,与大众的切身利益休戚相关,对国家的战略安全与社会稳定意义重大。
十多年来,以移动社交网络、智能手机与可穿戴设备、泛在的物联网终端为代表的信息技术和产品得到广泛应用,为计算社会学提供了前所未见的大规模、多侧面的人类行为感知能力。同时,以大数据和人工智能为代表的数据科学理论,使得研究人员能够抽丝剥茧从大量纷繁芜杂的数据中发现和洞悉其中的本质。层出不穷的新型感知技术和智能算法为研究人类社会提供了一个全新的路径,正在不断地改变社会科学家和数据科学家探索世界、发现规律的方式。
《计算社会学》是一本系统性梳理计算社会学相关理论和方法的论著。一方面,本书从传统复杂网络分析的角度,详细阐述了社会网络分析的基础理论和动力学模型——随机网络、小世界网络、无标度网络和网络统计分析理论等,并将网络过程和行为应用于涌现、流行病学研究等方面。另一方面,融合人工智能在自然语言处理、推荐算法等领域的进展,阐述了人工智能算法尤其是深度学习理论等在智能推荐、文本分析、假消息检测、虚拟社交机器人等领域的应用。在兼顾广度和深度的前提下,本书深度融合计算机科学、社会学、人工智能和复杂网络等多学科的专业概念,突出阐述了计算社会学领域近年来的最新研究成果和关键技术突破。
本书分为上、下两册,采用理论、方法与关键技术相结合的方式安排各章内容。上册《计算社会学:基础理论篇》分为基础支撑理论与算法篇和社会网络分析篇,首先介绍图论及机器学习的基本概念,进而对典型的机器学习算法如线性回归、聚类算法和分类算法,以及极具代表性的深度神经网络算法(如卷积神经网络、循环神经网络、对抗生成网络等)进行基础性介绍,最后从网络基本理论(三元闭包等)出发介绍了强关系和弱关系的应用和联系,从选择和社会影响两个角度阐述了同质化的形成原理,并且阐述了网络极化的形成机理与度量方法,进而从节点权力的角度阐述社会权力的核心内涵。下册《计算社会学:系统应用篇》分为网络动力学篇和社交媒体挖掘与社群智能篇,首先介绍了典型的网络动力学模型,如逾渗理论、ER随机模型、小世界模型和无标度网络模型等,并重点介绍了传染病的建模方法,同时以自然语言理解为基础介绍社交媒体挖掘方法,包括自然语言模型、话题模型等,进而介绍了用户画像、智能推荐、假消息传播和虚拟机器人等计算社会学前沿技术。
上册:
1.基础支撑理论与算法篇(第1~8章)
第1章简要介绍图论的基本概念和计算理论,包括图的表示、存储、遍历和最短路径等经典问题。第2章介绍机器学习的基本概念和发展历程,重点介绍机器学习的基本数据处理流程,包括数据预处理、特征抽取与选择、误差的产生和模型评估等。
第3~5章为基础算法。其中第3章主要介绍线性回归模型,包括一元线性回归和多元线性回归。第4章为聚类算法,从聚类问题的核心目标任务出发,引入了聚类中的一个重要概念——距离度量,系统梳理了聚类任务中的典型算法。第5章主要内容包括贝叶斯分类器、支持向量机、决策树和随机森林。另外针对单一模型能力有限的问题,介绍集成学习方法,支持相同或者不同基模型的融合。
第6~8章为高级算法。其中第6章介绍传统的神经网络的基本概念和理论,包括神经元模型、多层感知机、误差反向传播以及其他新型的神经网络,例如玻尔兹曼机、脉冲神经网络等。第7章介绍卷积神经网络、循环神经网络、图神经网络等模型,并从模型训练出发介绍网络模型训练优化方法。第8章介绍其他高级神经网络,包括对抗生成网络、自编码器、编-解码器、注意力机制。
2.社会网络分析篇(第9~12章)
第9章从三元闭包等理论出发介绍了强关系和弱关系的应用和联系。第10章首先引入了社会同质现象,并从社会选择和社会影响两个角度阐述同质化的形成原理,并介绍同质化的社会性影响,包括人群隔离、感知偏差、同伴效应等。第11章从网络结构的角度介绍认知平衡模型和结构平衡理论,针对网络中广泛存在的极化现象,阐述了极化的成因以及极化网络的检测和量化方法。第12章从节点权力的角度对社会网络进行深入分析,阐述社会权力的形成机理和量化方法,包括纳什均衡与网络议价、节点权力的度量等。
下册:
1.网络动力学篇(第1~5章)
第1章从随大流现象出发,介绍了网络中信息传播的经典模型,包括级联模型、晶格理论、逾渗理论及其变种。第2章重点介绍了ER随机模型及其统计特性,并通过仿真实验对ER模型进行验证分析。第3章从经典的六度分隔实验出发,引入小世界现象,进而介绍了小世界网络模型的数学形式化表达及属性。第4章介绍了幂律分布的数学特性以及幂律分布的典型应用,并基于上述观察,引入无标度网络及其模型特性。第5章介绍了典型的传染病模型,并讲解了传染病的防控和干预。
2.社交媒体挖掘与社群智能篇(第6~12章)
第6~8章主要介绍以自然语言理解为基础的社交媒体挖掘方法。其中第6章首先介绍了经典语言建模工作,包括词袋模型、n-gram模型;然后重点介绍了自然语言处理中典型的序列数据处理方法,包括隐马尔可夫和条件随机场;最后介绍了自然语言处理中的典型任务和预训练模型。第7章介绍了主题分析模型,包括潜在语义分析、概率潜在语义分析、潜在狄利克雷分配模型。第8章系统梳理情感挖掘领域的工作,从词语、句子/文档和属性三个粒度总结了情感分析的研究进展。
第9~12章则介绍了计算社会学领域的新兴技术。其中第9章从单模态用户画像和多模态用户画像两个角度总结了用户画像技术的最新工作进展。第10章首先介绍协同过滤和基于内容的推荐两类典型模型;然后介绍基于深度学习的推荐算法,概述基于情境感知的推荐方法;最后总结了推荐系统中现有的评估策略和方法。第11章主要从假消息的定义、假消息的认知机理、多模态假消息检测方法、群智融合假消息检测、可解释假消息检测五个方面展开介绍。第12章主要对虚拟机器人设计与实现过程中所涉及的关键技术进行总结,包括虚拟形象塑造和个性化内容生成等,讲解虚拟机器人塑造完成流程。此外,重点介绍了典型虚拟机器人塑造平台AI-Mate系统架构。
在本书成稿的过程,西北工业大学智能感知与计算工信部重点实验室的研究生深度参与,为书稿的编撰付出了辛劳和智慧:赵志英(上册第1章)、孙月琪(上册第2、3章)、李智敏(上册第4章,下册第9章)、成家慧(上册第5章)、王虹力(上册第6章)、任浩阳(上册第7章)、郝少阳(上册第8章)、张秋韵(上册第9、11章)、冯煦阳(上册第10章)、丁亚三(上册第12章,下册第1、4、11章)、吴广智(下册第2、5章)、张玉琪(下册第3章)、王梓琪(下册第4章)、王豪(上册第8章,下册第6、12章)、李可(下册第7章)、李诺(上册第4章,下册第8、9、10章)、张岩(下册第10章)。在此对他们的辛勤付出表示感谢!感谢实验室学术带头人周兴社教授和学术顾问张大庆教授多年来的悉心培养、指导以及在本书编写和审校过程中给予的宝贵意见。此外还要特别感谢机械工业出版社的编辑们在本书准备过程中给予的全力支持与专业指导。
我们还要特别感谢美国亚利桑那州立大学刘欢教授、澳大利亚新南威尔士大学姚丽娜教授、北京大学李晓明教授、中国科学院自动化研究所曾大军教授、上海交通大学薛可教授、北京航空航天大学马帅教授、北京航空航天大学李建欣教授、西安交通大学饶元教授、微软亚洲研究院首席研究员谢幸博士、微软小冰首席科学家宋睿华博士、京东集团副总裁、京东城市总裁郑宇博士、华为云人工智能领域副总裁袁晶博士等计算社会学领域的同行学者,本书也融入了部分以前大家一起研讨或项目合作的成果。在本书成稿过程中,还有很多同事和朋友以不同形式提供了帮助,难免有所疏漏,在此就不一一列举,敬请各位谅解。
计算社会学作为一个快速发展的新兴研究领域,新概念、新问题、新方法不断涌现,限于作者的学识水平和研究局限,本书难免会存在疏漏或不足之处,敬请读者批评指正。
作者
2024年1月于西安