1.1.2 自然语言处理的主要研究内容
自然语言处理的研究内容十分庞杂,整体上可以分为基础算法研究和应用技术研究。基础算法研究又可以细分为自然语言理解和自然语言生成。从语言单位的角度来看,涵盖了字、词、短语、句子、段落、篇章等不同粒度。从语言学研究的角度来看,则涉及形态学、语法学、语义学、语用学等不同层面。此外,由于目前绝大多数自然语言处理算法都采用基于机器学习的方法,针对特定的自然语言处理任务,以有监督、无监督、半监督、强化学习等不同的机器学习算法为基础进行构建。因此,自然语言处理研究又与机器学习和语言学的研究交织在一起,使得自然语言处理的研究内容涉及范围广,学科交叉度大。
自然语言处理研究与语言学密切相关,语言学研究可以被划分为形态学、语法学、语义学、语用学等几个层面。形态学(Morphology)主要研究词的内部结构和构成方式。语法学(Syntax)主要研究句子、短语、词等语法单位的语言结构与语法意义的规律。语义学(Semantics)主要研究语言的意义,目标是发现和阐述关于意义的知识。语用学(Pragmatics)是从使用者的角度来研究语言的,研究如何理解和使用一定的上下文环境下的语言。在实际的任务中,上述几个层面的问题往往相互关联,并不能完全独立。语法结构分析需要词汇形态学的支撑,语法结构也影响着词汇的形态,语法结构和语义也是相互交织的,而下上文环境又对语义有重要的影响,因此,很多自然语言处理任务并不是完全独立的。但是为了简化任务处理的难度,通常在处理不同层面的任务时仍然需要独立考虑。从自然语言处理研究内容的难度来看,从形态、语法、语义到语用是逐层递增的。目前基于机器学习和深度学习的自然语言处理算法的处理主要集中在形态、语法、语义这三个层面,基于目前的处理框架,部分语义层面的任务仍较难突破,语用层面的任务难度更大,在该层面的研究相对较少。我们从语言单元粒度和语言学研究层次两个维度,对自然语言处理的主要研究内容进行了归类,如图1.2所示。
图1.2 自然语言处理的主要研究内容
自然语言处理在词汇粒度下的研究内容主要包括:词形分析、词性标注、词义消歧,分别针对词的词性、语法、语义开展研究。句法分析主要针对句子根据语法进行结构分析。篇章分析的核心是对篇章的连贯性和衔接性进行分析,涉及篇章级别的语法结构,同时也包含部分语义的内容。语义分析则涉及从词汇、短语、句子到篇章等各个粒度。语言模型主要聚焦于句子粒度,但是也包含部分短语和篇章级别的研究。以上内容研究主要围绕自然语言理解的基础问题开展。自然语言生成则主要研究利用常识、逻辑和语法等知识自动生成文本,涉及形态、语法和语义的层面,同时也涵盖从短语到篇章多个粒度。在自然语言处理的基础研究内容之上,信息抽取、情感分析、文本摘要、机器翻译、智能问答、知识图谱等任务则围绕自然语言处理的应用开展,所处理的语言单元也根据任务特性而不尽相同。
整体上看,自然语言处理的主要研究内容围绕语言学基础理论,在形态、语法、语义等层面开展自然语言理解基础算法和自然语言生成基础算法的研究。在此基础上,围绕自然语言处理的重要应用场景开展一系列的应用技术研究。这些研究内容也已经被深度应用于信息检索、虚拟助理、推荐系统、量化交易、智能问诊、精准医疗等众多系统中。