上QQ阅读APP看书，第一时间看更新

前言

现代社会持续增加的计算能力和可供处理的数据量为包括自然语言处理技术在内的人工智能技术的发展奠定了基础。自然语言处理技术在互联网的兴起中得到了普及和发展。

本书共12章，第1章介绍开发自然语言处理可以采用的Java开发环境及其相关技术基础；第2章介绍中文分词原理与实现；第3章介绍句子级别的语义分析方法；第4章介绍英文文章分析的方法；第5章介绍文本相似度计算与文档排重方法；第6章介绍文本关键词提取与信息提取，以及预处理阶段可能用到的拼写纠错；第7章介绍中英文文本自动摘要及其分布式部署；第8章介绍文本分类算法及其Java调用接口；第9章介绍文本倾向性分析的方法；第10章介绍语音识别的总体结构和Sphinx语音识别软件的Java实现；第11章介绍问答系统的总体结构与问句分析、知识库表示及自然语言生成等；第12章介绍机器翻译与辅助机器翻译技术。

本书中的一些内容与现有的一些开源大数据项目Hadoop、HBase，以及Eclipse集成开发环境、Spring框架等有良好的兼容性。

本书相关的参考软件和代码在读者QQ群665390860的附件中可以找到。一些具体的细节也可以在读者QQ群中讨论。

感谢早期合著者、合作伙伴、员工、学员、读者的支持，是他们给我提供了良好的工作基础。每次给学员的培训都让我重新出发，如果没有学员的支持，那么可能就不会有这本书的问世。技术的融合与创新无止境，欢迎大家和我一起探索。

本书可作为高等院校计算机相关专业学生的教材，也适合从事自然语言处理应用的开发人员使用，同时，对于对人工智能等相关领域感兴趣的人士，本书也有一定的参考价值。猎兔搜索技术团队已经开发出了以本书为基础的专门的培训课程和商业软件。