数字多媒体技术与应用实例
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 文本素材的采集方式

文本文字是日常使用最主要的信息交流手段,又称为符号化的媒体。与其他媒体相比,文字是最容易处理、占用存储空间最少、最利于计算机输入和存储的媒体。通常文字素材的采集主要通过键盘输入,或者从其他文字处理软件中获取。随着计算机技术的飞速发展,扫描输入、手写输入和语言输入等多种方式开始应用和广泛普及,使得文字的输入速度有了很大程度的提高,减轻了用户的劳动强度,极大地方便了用户的使用。

2.1.1 扫描输入

扫描输入的核心技术是光学字符识别软件(Optical Character Recognition,OCR),可对扫描仪输入的文字进行判断,将扫描后的文字图像转换成文本格式的文件,使文字处理软件能够调用并处理。这样可以大大提高文字录入的速度,极大地提高工作效率。目前,文字识别软件有许多种,如“汉王OCR—文豪7600”、“紫光OCR”、“尚书七号OCR”、“Adobe Acrobat 7文字识别”和“Microsoft XPS Document Writer文字识别”等,上述OCR识别软件的文字识别率相差不多,每种识别软件都有自身的优势,例如Adobe Acrobat 7擅长于识别可以直接识别的文件(以文本形式保存的PDF文件),Microsoft XPS Document Writer擅长于识别不能直接识别的文件(以图片形式保存的PDF文件)。由于识别软件的种类繁多,它们的使用方法和步骤也不尽相同,但我们只要了解识别软件的工作步骤,掌握一种识别软件的使用方法后,对其他识别软件的使用也就触类旁通了。下面对几种常用OCR软件作以介绍。

(1)紫光TH-OCR XP能够适应超过一百种Windows字体,可以识别全部简体国标一二级6763个字符,繁体13000多字符,也可以识别彩色图像,并转换成带有彩色图片的RTF格式(Word可编辑)。它支持多任务,可以在识别一篇文章的同时扫描或编辑其他文档。在TH-OCR XP中对于每个区域可以设定不同的字体,例如一篇文档中的大段英文可以设为英文识别,以提高识别率。

(2)汉王文本王—文豪7600是一款为从事政务、商务、教务办公的单位用户和有文字录入需求的个人用户专门研制的文字、表格、图像高效录入系统。文豪7600是文本王2006年的作品,基于对客户的深入了解,汉王在高达99.5%的印刷文稿识别率基础上,不断设计更为人性化的操作界面,扩展识别范围,提高录入正确率。

(3)丹青中英日文OCR识别提供繁中、简中和日文3种操作界面,可辨识繁中、简中、英文及日文4种文件,辨识后的文件可储存成各种常用档案格式再编辑,超高辨识速率及辨识率再提升,快速原文重现各式文件。

(4)尚书七号OCR是为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。它能够识别国标GB2312—80的全部一、二级汉字6800多个简体字符,除了简体汉字外,它还可以混识繁体字5400多个和GBK汉字。另外,它能够识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。它甚至可以自动判断、拆分、识别和还原各种通用型印刷体表格。

以上几种文字识别软件都是目前用户使用频率较高的。用户如果不满意使用扫描仪自带的OCR软件可以选择使用这些OCR软件。

下面我们以汉王文本王—文豪7600为例,对文字识别软件作以介绍。

1.安装汉王文本王—文豪7600

汉王文本王—文豪7600的安装很简单,首先双击汉王文本王—文豪7600安装文件,打开汉王文本王—文豪7600安装向导,如图2-1所示。

单击【下一步】,阅读许可协议,单击【我同意】,如图2-2所示。

单击【下一步】,选择汉王文本王—文豪7600文件存放的位置,默认安装路径为C:\HWDOC_KING,如图2-3所示。

单击【浏览】修改汉王文本王—文豪7600存放的位置,单击【下一步】,开始汉王文本王—文豪7600的安装,单击【完成】,全部程序安装完毕,如图2-4所示。

图2-1 汉王文本王—文豪7600安装向导

图2-2 汉王文本王—文豪7600许可协议

图2-3 汉王文本王—文豪7600文件安装路径

图2-4 汉王文本王—文豪7600安装完毕

2.扫描识别文字

将文字扫描成图片是文字识别的第一步,OCR主要识别的是印刷体文字,而且文字越清晰,排版越有规律的文字稿识别率越高。下面以一个实例来介绍如何进行文本的扫描,这个方法也同样适用于图片等资料的扫描。

选择【开始】\【程序】\【文本王专业版】命令,启动汉王文本王,如图2-5所示。

图2-5 汉王文本王界面

打开扫描仪的盖板,将文稿正面朝下放在玻璃上,文稿的边缘要与玻璃的边缘尽量平行,然后合上盖板。为了获得最高的识别率,原稿要平整干净,不能有褶皱。

单击工具栏上的【扫描】按钮,启动扫描仪使用的扫描软件,这时用户可根据文稿的文字大小调整分辨率和扫描的图像类型,一般300dpi比较合适,图像类型选择【灰度】,如图2-6所示。

图2-6 扫描参数设置

调整好参数之后,单击【扫描】按钮进行正式扫描,几秒钟后扫描就完成了。

扫描结束后,可以在图片区域看见刚扫描好的文稿,如果用户想对图片进行进一步的调整,可以使用【图像】菜单下的命令调整图片,可以进行图像的倾斜校正,以达到最好的识别效果,如图2-7所示。

图2-7 对扫描后的图像进行调整

全部编辑完成后,可以使用【导出】\【导出图像】命令,将图像保存起来。

3.识别文字

在识别文字之前首先要设置识别的区域。单击工具栏中的【横栏】按钮,拖动鼠标左键,在文稿图片区域推动出一个蓝色矩形框,将要识别的文本全部选中,放开鼠标,要识别的文本被红色矩形框选中,如图2-8所示。若用户要识别入多个区域,可以反复选择。

设置好识别区域后,单击工具栏中的【识别】按钮,对文字进行识别。识别结束后,结果将显示在打开的“文稿校对”窗口中,如图2-9所示,在这里用户可对文稿进行进一步的修正。

图2-8 选择识别区域

图2-9 “文稿校对”窗口

校对无误后,可将文字导出,单击菜单栏中的【导出】命令,汉王文本王有许多种方式可以导出文字,将文字保存起来。最常用的是【导出Word】,如图2-10所示。

图2-10 文字导出

2.1.2 手写输入

手写输入又称为手写识别,是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,是人机交互最自然、最方便的手段之一。随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了大规模应用的时代。

手写识别能够使用户按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。用于手写输入的设备有许多种,比如电磁感应手写板、压感式手写板、触摸屏、触控板、超声波笔等。

手写识别属于文字识别和模式识别范畴,文字识别从识别过程来说分成脱机识别(Off-line)和联机识别(On-line)两大类,从识别对象来说又分成手写体识别和印刷体识别两大类,我们常说的手写识别是指联机手写体识别。

1.手写板的安装

手写输入系统一般由电磁感应手写板和手写笔两部分组成,手写板通过连接线与计算机相连。目前使用较多的是USB连接方式。手写板的使用必须安装相应的驱动程序,驱动程序一般随手写板配送。驱动程序的安装十分简便,安装的时候只需按照说明进行安装即可完成。

2.利用手写板输入文字

启动手写板程序后,计算机屏幕上会出现全屏幕书写模式的提示,以及一组切换按钮。

在全屏幕书写模式工作环境中,单击【鼠标与手写模式】切换按钮,切换到手写模式,整个屏幕就像一张纸。用手写笔在手写板上书写文字,屏幕上会显示所写文字的笔迹,在提笔后片刻,手写输入程序就开始识别,并将识别结果输入到相应的文本应用程序中。如果手写的文字不规范无法正确识别,识别程序会给出一组相似的文字供选择,同时系统还将提示“联想词组”选择。

在书写格模式下,屏幕会出现一个字符输入窗,用手写笔可在该字符输入窗中书写文字以供识别。

识别率是手写输入系统的最重要指标,字体不同和字迹潦草,将影响手写输入系统的识别率。

2.1.3 语音输入

利用语言识别技术将声音通过计算机转换为文本,是最方便、最自然、最快捷的文本录入方式之一。通过话筒将需要录入的文字读出,通过语音识别技术处理,就可以把读入到计算机的声音信息转换为计算机中的文本。语音输入技术包括命令控制和听写两个功能:命令控制是通过声音向计算机发出一个指令,控制计算机的操作;听写功能就是“人来说,计算机来写”的过程。有些语言软件与录入者无关,称为非特定人识别系统,由于这种系统对录入者的声音限制较多,正确识别率受到很大影响。大多数语言软件与录入者是有关的,即它们只能识别几个录入者的声音,称为特定人识别系统。在这种系统中,由于录入者的语言、语调和讲话节奏不尽相同,使用前录入者需对系统进行训练,以掌握具体录入者的语言特征,建立声音档案,其识别正确率会大大提高。

语言识别的任务就是运用语音学知识和语言学知识,第一步对语言信号进行基于信号特征的模式分类,这是语音信号处理的范畴,分类的结果是得到拼音串;第二步是利用语言学知识对拼音串进一步处理,得到一个符合语法和语义的句子。对于汉语而言,还要在此步骤中完成音字的转换工作。

IBM ViaVoice语音识别系统语音输入的代表技术之一。IBM ViaVoice是IBM公司开发的高性能的语音识别系统。它由语音板、口音适应程序、IBM ViaVoice属性、麦克风设置向导程序、词汇管理器及联机参考手册等6个部分组成。IBM ViaVoice的基本用法虽然不是太难,但是在安装之后还不能立即使用,因为这时计算机还不“认识”你,只有在通过口音适应程序建立针对你个人口音特点的模型后,才能有效地使用。IBM ViaVoice在功能上有以下几个主要特点:连续语音识别、具有强大的学习功能、每分钟平均150个字、输入最高识别率达95%,平均识别率达85%。

IBM ViaVoice语言识别系统的安装过程很简单,按照安装程序的提示,每一步默认安装即可,在这里就不赘述了。下面着重介绍IBM ViaVoice语言识别系统的使用方法。

运行IBM ViaVoice语言识别系统,首先ViaVoice的麦克风设置向导程序引导你正确设置麦克风。设置步骤如下。

启动麦克风设置。如果运行过麦克风设置向导程序,你可以单击【调节音量】按钮,直接进行麦克风音量调节和语音识别测试。如第一次运行设置向导程序,则单击【设置头戴式麦克风】按钮,单击【下一步】按钮,如图2-11所示。

图2-11 设置麦克风

麦克风设置向导程序将检测计算机并显示出它找到的混音器设备。如果它不认识这个混音器设备,将显示“未知”。如果有外部扬声器,并且在所处的环境下放出的音响不会干扰他人,你可以选择外部扬声器。单击【下一步】按钮,如图2-12所示。

单击【测试】按钮,如果音频设置正确,你将听到音乐,并可以用鼠标拖动【音量】按钮调节至最佳听觉效果。如果听不到声音,可以单击【帮助】按钮获得解决办法。单击【下一步】按钮,如图2-13所示。

图2-12 设置声音输出方式

图2-13 测试声音回放

在前面正确安装并测试耳机或外部扬声器之后,此时就可以安装和设置麦克风了。首先,将麦克风插头插到声卡上的麦克风插孔中,确定其被正确地插到麦克风插孔中。其次,如果你的麦克风有“on/off”开关,确定其置于“on”。最后,单击【测试】(或【重测】)按钮,并朗读句子“通过朗读这个句子,测试麦克风设置。”来测试麦克风。如果计算机测到麦克风已经连接正确,向导程序将告诉你的麦克风已设置成功并被正确地连接到计算机上,单击【下一步】按钮,如图2-14所示。

向导程序将提示你麦克风已设置成功。单击【下一步】按钮以调节音量并测试使用此麦克风的识别效果。至此,麦克风的连接设置已经完成。

图2-14 测试麦克风

接下来创建个人语言模型。系统提供一段文字要求我们朗读,语音识别核心根据我们的读音,自动调节麦克风音量和识别核心,以适应我们的声音。这不仅是使用语音系统必须要进行的一个设置过程,而且在语音系统的使用过程中,可能还会经常用到。如果对音量的调整不恰当,对ViaVoice的识别率将有很大的影响,所以我们尽量调节音量到一个合适程度。当系统配置发生变化时,还需要重新调整。

进行音量调节时,首先进入音量调节窗口,单击【开始】按钮后,随着指示框(蓝色框)的移动读出当前高亮显示的词。用正常语音,请勿高声、低语,或逐词变换语调,词与词之间要保持一定间隔。每读一个词不能多于3秒钟。读完一个词后,请保持安静,直到指示框移到下一词。如图2-15所示。

图2-15 创建个人语言模型

当蓝色下画线长时间停止不动时,会出现提示信息,说明麦克风检测不到声音,请重新检查麦克风设置。麦克风检测不到声音的原因可能是:①如果你的麦克风有on/off或on/mute开关,确定其置于on(开);②确定你对着麦克风念所指示的词;③如果你的麦克风使用电池适配器,检查电池是否有电;④确定头戴式麦克风设置正确。如果不能确定,请运行麦克风设置向导程序。

当音量调节完成后,就进入语音识别测试阶段,系统提供4段文字要求我们朗读,单击【开始】按钮进行麦克风测试。如图2-16所示。

图2-16 语言识别测试

当蓝色下画线长时间停止不动时,表示这个词的读音未被识别,可能原因是:①麦克风未置于正确位置;②在词间没有停顿;③你对某些词的发音不符合ViaVoice要求;④你念错了某词;⑤你的音量必须处于绿色区域;⑥环境噪声过大。单击【停止】按钮,重新开始测试,直到正确读出每一个词后,语音测试完毕。

ViaVoice的软硬件都已经装配好后,我们运行ViaVoice语言识别系统,如图2-17所示。

图2-17 ViaVoice语言识别系统界面

使用ViaVoice语言识别系统进行听写并让它听懂你的语音要花费一定时间,每一个用户都有着不同的发音用词方式。ViaVoice提供了很多工具,可以帮助你提高语音识别率。在每次听写和进行纠错的时候,ViaVoice实际上也在学习如何能更好地识别你的语音。随着使用次数的增多,识别率也会不断提高。

微软公司Windows 7系统中自带的语音识别功能也比较强大,识别率较高,目前已支持中文发音,感兴趣的读者可以体验一下。