前言
本书的主要目的是对自然语言语义分析领域的理论和技术进行广泛而深入的探讨。本书在可能的情况下,将所有的问题和技术都用浅显的文字表达,尽可能使更多的读者能够理解书中所介绍的主要思想和技巧。即便如此,本书还是给出了足够多的细节,使得一名熟练的程序员能够根据本书的介绍写出可运行的自然语言语义分析系统。
本书的内容面向自然语言处理,并基于现代汉语框架网络工程研究的一部分,主要集中在三个方面:第一,现代汉语框架网络工程构建是一个面向中文信息处理的语义资源建设系统工程,在现代汉语框架网络工程构建研究中,提出了一种基于层叠条件随机场模型的句法语义角色自动标注方法,并通过实验验证了其有效性;第二,基于框架语义学思想构建了中文阅读理解语料库,并提出了针对语料库加工的中文框架语义标注技术;第三,在中文阅读理解语料库的基础上,提出了基于最大熵模型进行中文阅读理解问题回答的建模技术,并开发实验系统。
本书是按照语料资源构建、理论研究、应用研究来组织的。全书共16.9万字,内容主要体现在以下五个方面。
首先,明确自然语言语义分析的意义,确定本书首要的内容就是构建现代汉语框架网络语义知识库,并尝试在语义分析的基础上,在问题回答的背景下进行中文阅读理解问题回答的研究。
其次,汉语框架网络工程为汉语框架网络知识库的句法语义角色自动标注软件的设计与开发(目的是开发高性能的汉语句法语义分析器),以及为大规模真实文本的语义信息标注提供有力支持。本书将层叠条件随机场模型应用于汉语框架网络知识库的句法语义角色自动标注任务;针对单个框架下的句子库中的所有句子进行句法语义角色自动标注探索,具体内容包括语义角色标注、短语类型标注、句法功能标注的多个主要步骤的条件随机场建模,并将低层条件随机场模型中自动标注的最好结果作为高层条件随机场模型自动标注的输入;提出适合各层角色标注的特征模板,并通过实验进行验证,确定方法的有效性。
第三,将框架语义学思想引入中文阅读理解分析研究,并构建基于汉语框架语义角色标注的中文阅读理解语料库。阅读理解问答系统是研究自然语言处理技术的一个有效方向,它为自然语言处理技术提供了一个很好的评测方法,具有很高的研究价值。然而,缺乏中文阅读理解语料库已经成为制约汉语阅读理解问答系统发展的主要障碍。开展中文阅读理解问答系统研究的前提是具备一个选材合理、问题设置适当的中文阅读理解语料库。本书作者作为中文阅读理解语料库主要构建人员之一,研究并制定了中文阅读理解语料库的研制技术。在构建中文阅读理解语料库过程中,采集了多种主题的阅读理解问答系统原始数据,设计了问题句,标记了答案句,并开发了辅助工具,进行了分词、词性标注、命名实体识别、语料库的目标词索引等加工处理,尤其是基于汉语框架网络知识库对语料进行了句法功能、短语类型和框架元素三个层面的深加工。
第四,从一个例子引出了最大熵方法的原理,由此介绍了最大熵方法的建模过程及参数估计,并对其中的数学运算进行了详细的推导。
第五,基于中文阅读理解语料库,根据问句和候选答案句的对应关系,构建词层面特征、句法层面特征,采用统计机器学习方法——最大熵模型进行阅读理解问题回答建模,并设计实现中文阅读理解问题回答系统,并给出了实验结果与性能分析。从而对语料库的规模、合理性、评价标准等开展进一步的探索,度量语料的测试结果。实验结果表明,采用最大熵模型,在词层面特征的基础上有效的融合句法层面的基本块特征、结构关系特征及功能块特征,系统的性能达到了预期的效果。较好的系统性能表明,该研究方法不仅对该课题,而且对相关课题的研究也具有一定的指导意义。
最后,对全书的内容进行总结。
从事自然语言语义分析的工作者要求有广泛的背景知识,特别是涉及计算机科学、应用语言学、英语语言学、信息科学、数学等多种专业背景,整个研究都是互相支持、交叉进行的。本书在必要时尽可能给出所需的背景材料,本书还专门给出了附录,提供了足够多的基本知识,使得读者容易理解本书。
本书包含一个本领域的比较详细的参考文献列表,由此可以很容易地找到书中所描述的技术的特定细节。参考文献中还给出了其他一些关键性的论文,它们讨论的问题虽然在本书范围之外,但有助于读者了解研究项目的来源。参考文献的选择主要看其是否易于获得,因此,作者试图将引用的文献限制在杂志文章、书籍和主要的会议上。虽然作者试图尽可能提供广泛的资料来源并将本书中所介绍的思想归功于此,但作者知道还是遗漏了一些关键性论文。每当作者想到这些论文时,都会感到无限的遗憾。对于这些作者,本书作者非常抱歉。
如果没有山西大学刘开瑛教授,以及最近六年多来太原理工大学计算机科学与技术学院持续不断的支持,本书是不可能完成的。感谢常晓明教授、李茹教授和由丽萍博士自始至终给予的莫大支持和帮助。我无阻碍地得到了完成本书所需要的超额的资源,为此我心存感激。我还必须感谢为本书的草稿和终稿的编辑和整理所付出努力的辛勤工作者,尤其感谢电子工业出版社的史鹏举编辑,他的建议大大提高了本书的质量。
限于作者的水平,书中难免有不妥和谬误之处,敬请读者指正。
著者