大数据案例精析
上QQ阅读APP看书,第一时间看更新

2 技术体系

科大讯飞以语音业务起家,一直秉承“从市场中来,到市场中去”“用正确的方法,做有用的研究”等核心理念,一步一个脚印,始终坚持提供国际领先的语音及语言整体解决方案,不断地推出符合国家和社会需求的智能语音及语言技术产品和应用服务,致力于建立智能语音及语言技术和核心技术应用产业化两大方面的竞争力,已成为国际一流的智能语音服务提供商。

2.1 核心技术

经过长期的自主研发和科技攻关,科大讯飞已形成了较为丰富的以智能语音为代表的核心技术体系,主要包括以下六种技术:

2.1.1 语音识别技术

语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来,使其具备“能听”的功能,进而利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

2.1.2 语音合成技术

语音合成技术又称文语转换(Text to Speech)技术,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,主要目的是将文字信息转化为声音信息,即让机器像人一样开口说话。

2.1.3 自然语言处理技术

自然语言处理技术可以分为基础研究和应用两大类:基础研究主要指对自然语言内在规律的研究,可以划分为词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析等;应用研究主要指基于基础研究的成果,面向不同的应用研发相关的自然语言处理技术,大的方向包括拼音输入法、信息检索、信息抽取、自动摘要、机器翻译、语音合成、语音识别、文本匹配、文本分类以及对话系统等。

2.1.4 语音评测技术

语音评测技术又称计算机辅助语言学习(Computer Assisted Language Learning),是指机器自动对用户的发音进行评分、检错并给出矫正指导的技术。语音评测技术作为智能语音处理领域的研究前沿,由于其能显著提高用户对口语学习的兴趣、效率和效果,因而有着广阔的商业价值和应用前景。

2.1.5 声纹识别技术

声纹识别技术是一种通过语音信号提取代表说话人身份的相关特征,进而识别出说话人身份等方面的技术。它可以广泛应用于信息安全、电话银行、智能门禁以及娱乐增值等领域,有极大的市场需求。

2.1.6 手写识别技术

手写识别技术是一种让计算机能够“认识”用户在手写设备上书写的文字信息,将有序的笔迹轨迹转换为用户所书写的字符的技术。这一技术为用户提供了更为便利的交互方式,使得不熟悉或不方便键盘操作的用户也能轻松地使用各类电子设备。

2.2 技术水平

科大讯飞在多个智能语音发展领域已跻身全球先进行列,具体包括以下四个方面:

2.2.1 语音合成领域

在语音合成领域,科大讯飞代表着世界最高水平。自20世纪90年代中期以来,在历次的国内外语音合成评测中,科大讯飞的各项关键指标均名列第一,不仅中文语音合成技术超过了普通人的说话水平,而且在英语等多语种语音合成上牢牢占据了国际领先地位。

2.2.2 语音识别和声纹语种领域

在语音识别和声纹语种领域,美国国家标准与技术研究院组织的国际评测大赛是国际上规模最大、影响力最广泛的评测比赛。自2008年科大讯飞开始参赛以来,已多次获得冠(亚)军,在业界处于领先地位。

2.2.3 语音评测领域

在语音评测领域,科大讯飞的智能评测系统经国家语言文字工作委员会(以下简称“国家语委”)组织的鉴定和对比测试,结果表明“核心技术已经到达国内和国际领先水平”“系统评分性能与国家级评测员高度一致”。科大讯飞的中文评测技术是全国唯一通过国家语委的鉴定并大规模实用的技术;英文评测技术在多个地区的中考和高考等重大考试中全面应用;业界唯一可以精确反映音准、节奏和歌词演唱准确度的音乐评测技术,并已广泛应用于相关的产品和服务中。

2.2.4 其他核心技术领域

在其他核心技术领域,如基于声纹识别技术、语种识别技术、关键词检测等核心技术方面也已具备了相应的基础。在公共安全方面通过与相关单位开展合作,建成了全国重点人员声纹库,并与DNA库和指纹库共同构成了立体人物特征库,在此基础上开发出国内首个实用的海量语音自动说话人识别监控系统,在实际应用中取得了良好成效。