自然语言处理导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 本书内容安排

本书共分为14章,主要包含三个部分:第1部分主要介绍自然语言处理的基础技术,包括绪论、词汇分析、句法分析、语义分析、篇章分析和语言模型;第2部分主要介绍自然语言处理的一系列核心技术,包括信息抽取、机器翻译、情感分析、智能问答、文本摘要、知识图谱;第3部分主要介绍基于机器学习的自然语言处理模型的稳健性和可解释性问题。本书章节安排如图1.7所示。

图1.7 本书章节安排

第2~6章从词汇、句法、篇章三个不同粒度的语言单位,从形态、结构、语义三个不同的语言层面,对自然语言处理的基础技术进行介绍。第2章主要介绍语言学中与词汇相关的基本概念,以及词语规范化、中文分词、词性标注等词汇分析的主要任务和相关算法。第3章主要介绍语言学中句法的基本概念,以及成分句法分析算法、依存句法分析算法。第4章主要介绍语义学和语义表示的基本概念、语义知识的表示方法,以及词义消歧、语义角色标注等语义分析的主要任务和相关算法。第5章主要介绍篇章结构的基础理论和基本概念,以及话语分割、篇章结构分析、指代消解等篇章分析的主要任务和相关算法。第6章主要介绍语言模型的基本概念,以及n元语言模型、神经网络语言模型、预训练语言模型和大规模语言模型的常见算法。

第7~12章主要介绍自然语言处理支撑各种应用的核心技术。第7章主要介绍信息抽取的基本任务和相关算法,包括命名实体识别、关系抽取和事件抽取。第8章主要介绍机器翻译的基本概念和常见方法,包括基于统计和基于神经网络的机器翻译方法。第9章主要介绍情感倾向分析的基本概念和主要任务,包括篇章、句子、属性三个不同粒度的分析算法。第10章主要介绍智能问答的基本任务和分析算法,包括阅读理解、表格问答、社区问答、开放领域问答等。第11章主要介绍文本摘要的相关任务和基本算法,包括抽取式文本摘要、生成式文本摘要等。第12章主要介绍知识图谱的相关概念和基本任务,包括知识图谱表示、知识图谱构建、知识图谱应用等。

第13章和第14章针对基于机器学习模型的自然语言处理算法所面临的模型稳健性和模型可解释性问题进行讨论。第13章主要介绍自然语言处理模型稳健性的基本概念,以及数据偏差消除、文本对抗攻击方法、文本对抗防御方法和模型稳健性评测基准。第14章主要介绍自然语言处理模型的可解释性问题,主要包括解释性分析工具和自然语言处理算法的解释性分析方法。

此外,还需要特别强调的是,自然语言处理中的很多任务都被转换为机器学习问题,因此很多机器学习算法都可以被应用于多个自然语言处理任务中。例如,条件随机场(Conditional Random Field,CRF)模型可以用于中文分词,也可以用于词性标注,还可以用于命名实体识别。为了避免重复,我们仅在2.3.3节中详细介绍了如何使用线性链条件随机场模型进行中文分词,而在词性标注、命名实体识别等章节中选择了不同的算法进行介绍。这需要读者朋友能够融会贯通,在本书学习结束时,对特定机器学习模型可以适用于哪些自然语言处理任务有清晰的了解。