Python自然语言处理(微课版)
上QQ阅读APP看书,第一时间看更新

1.2.4 研究内容

自然语言处理,是研究计算机处理人类语言的一门技术,分为:语言学方向、数据处理方向、语言工程方向、人工智能和认知科学方向4大方向。

自然语言处理的研究方向包括如下内容。

(1)句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。

(2)信息抽取:从给定文本中抽取重要的信息,如时间、地点、人物等,涉及实体识别、时间抽取、因果关系抽取等关键技术。

(3)文本挖掘:包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习。

(4)机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本,可分为文本翻译、语音翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到如今的基于神经网络的方法,逐渐形成了一套比较严谨的方法体系。

(5)信息检索:对大规模的文档进行索引。在查询时,对表达式的检索词或者句子进行分析,在索引里面查找匹配的候选文档,通过排序机制把候选文档排序,输出得分最高的文档。

(6)问答系统:对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,在知识库中查找可能的候选答案,通过排序机制找出最佳的答案。

(7)对话系统:系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务,涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。

自然语言处理的内容如图1-5所示。

图1-5 自然语言处理的内容