自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

第3章 自然语言处理

为了解决第2章描述的各类语言理解任务,就要引出本章的自然语言处理,针对自然语言文本实现计算机加工和分析。前面已经提到人工智能大体上走符号计算和统计学习两条路。符号计算由于过多的推理和规则设置。相比而言,由于语言现象本身的随机性和上下文依赖性,基于统计学习理论和方法从大量数据中找到统计规律,逐渐成为自然语言处理主流。传统统计学习是一种浅层学习,通过人工设计特征准则选取有效特征,但是这种特征工程代价高昂,难以完成高效的表示学习。近几年随着深度学习的发展,通过深层结构实现多层次特征表示学习,拓展了统计学习能力。但是也同时面临可解释性、小样本、泛化难题,并且模型也越来越复杂。研究表明,未来可解释性强的符号计算也会被结合进来,发挥背景知识的优势,提高机器认知水平。

图3-1 自然语言处理内容框架

本章主要针对自然语言文本处理进行介绍,图3-1给出了本章的内容框架,首先从自然语言文本特征和自然语言统计学习的基础出发,进而讨论自然语言处理相关算法,包括自然语言机器学习和自然语言深度学习,最后给出相关前沿进展和思考。本章涉及的算法代码和数据详情,参考本书开源项目[1]

[1] https://github.com/openKG-field/kgbook-2020