1.3 数据输入综合应用
计算机中的信息处理过程中理想的字符输入方式是利用语音或图像识别技术“自动”将文本输入到计算机中,使计算机能认识汉字(包括手写体),听懂汉语,并将其转换为机内代码表示。目前这种理想已经成为现实。
1.3.1 光学字符识别
光学字符识别(Optical Character Recognition, OCR)是指通过扫描等光学输入方式,将各种票据、报刊、书籍、文稿及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。其基本原理是:利用光学技术对含有文字或字符的纸介质进行扫描、识别并转换成计算机内码。所需要的软件、硬件支持包括:扫描仪(见图1-32)、OCR识别软件。OCR的优点在于,非键盘输入,速度最快,所以主要的行业应用包括:银行票据、大量文字资料(如图书馆馆藏图书)、档案卷宗等。但是OCR对手写体汉字的输入有较大的局限性。
图1-32 扫描仪工作图
下面是一个运用OCR对在线电子文档进行识别的案例。
PDF文件是因特网上最为流行的电子文档格式,许多期刊、书籍在网上流通的版本保存成为PDF文档,这个事实通过Google的高级搜索的文件分类检索可以说明。PDF文档中保存的文字信息有相当一部分实际上是扫描得到的图像,所以不可以直接通过复制、粘贴来选取其中的文字材料进行引用或编辑,但是再次录入无疑是令人头痛的重复劳动。这个问题可以通过以下方式解决:
1)在画图软件中显示在PDF阅读器中的文本,通过屏幕截图,得到含有文字的位图信息(见图1-33)。
图1-33 利用画图软件可以将屏幕截图转为黑白格式
2)将图像成为黑白二值的BMP格式文件(见图1-34)。
图1-34 将位图文件保存成二值格式
3)通过OCR软件,将图像文件中的文字识别成为可编辑文本(见图1-35)。
图1-35 通过OCR软件将图像信息识别、转换成文本信息
由于转换过程中可能由于受文字的色彩、大小和其他因素的影响,转换得到的文字中可能存在误码或错字,需要仔细校对后方能采用。
OCR软件为用户提供了简体、繁体、英文、手写等不同的识别方式,以及竖排、表格等版面模式,千万不要在OCR文字识别过程中搞混。
通常而言,OCR对不能完全确定的文字,会显示出蓝色,请用户确认。但值得注意的是,在没有提示出错的地方,也有可能出错,尤其是中文文本中的英文单词,OCR一般会将其作为中文识别,错误率非常高。所以在校对时,可以先通读一遍,以提高文字校对的效率。
特别注意容易出现识别错误的地方,包括:数字“1”和字母“l”,各种全角和半角的标点符号,电子邮件中的“@”符号等。上述符号如果出现在电子邮件地址中,结果就是邮件无法发送。
1.3.2 手写字体输入
手写字体输入常见于手机等嵌入式产品,使用方便,但输入效率较低,需要专用的手写板、笔、手机、PDA(掌上电脑)感应屏幕等硬件支持。
手写输入汉字利用输入设备(如输入板或鼠标)模仿成一支笔进行书写,输入板或屏幕中内置的高精密的电子信号采集系统将笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息。
手写输入汉字解决了联机手写汉字的识别率问题,其中较为有名的产品有北京汉王科技有限公司的“汉王笔”和摩托罗拉公司的“慧笔”。利用手写输入可以解决两个问题:冷门字或只会写不会读的字的输入;要求对电子文档进行手写体签名的输入。
汉王提供的手写输入有三种模式:框式输入、任意位置书写、绘图板(见图1-36)。同样,在Office XP中,手写输入必须在微软自带的输入法下才有效。
图1-36 输入法中的手写选项
“框式输入”模式的手写范围限定在左边框的范围内,单击右边的“查找”按钮,在中间框显示与左边框相似的文字供选择(见图1-37)。
图1-37 “框式输入”模式
“任意位置书写”模式可在屏幕任意位置书写,随意性较大,容易干扰视线。
“绘图板”也规定了书写范围,书写的字作为图形对象插入到文档中。
但是,手写输入的速度慢,使用不方便,长期操作眼睛特别辛苦,这些都是手写输入难以逾越的障碍。由于在使用计算机输入时,录入者要同时照顾书写板和屏幕,眼睛特别容易疲劳,不可能实现大量汉字的输入。因此,手写输入只会在特定人群中流行,如:对计算机不熟悉只需要输入少量的汉字,或需要签名的人士。同时,PDA和手机也可以采用笔输入,因为机器尺寸小,键盘输入不方便。
1.3.3 汉字语音输入
汉字语音输入,源于语音识别技术,通常是采用语言相关的信息模型进行统计处理和基于规则方法进行歧义判别。例如,我们平时说话,说一个字的时候,由于有重码,别人可能听不懂,但是说上一个词语,别人能听懂的可能性增加,当说上一句话的时候,旁人就都懂了,这是因为话语中的字和词相互之间是关联的。将这种关联因素以量化方式进行统计分析,得出常用词语之间搭配的统计数量关系,计算机根据这种数量关系,通常能够在一定范围具备“智力”。对录制的语音进行识别,有时还需要采取一定的语言规则,对统计方法进行补充,以提高机器的智力水平。
20世纪90年代中后期,IBM推出中文普通话的语音输入系统ViaVoice,实现了每分钟150字以上的高速输入,这是目前语音输入中的佼佼者。IBM ViaVoice是专业语音识别输入系统,正确率可达95%,可用于所有打开的程序,包括控制浏览器的某些操作。
微软的语音输入识别正确率可达85%以上,仅用于Office软件产品,不能应用于整个系统和其他软件。
计算机对语音识别方法主要通过样板匹配法,即对输入的语音信息与识别系统中的词汇表内的词条进行匹配来实现语音识别,所以汉字语音输入的重要条件是中文语言资料库(又叫语料库),语音识别技术的效率与语料库的大小、说话人的口音等因素有关。因此,为了提高识别率,一般语音识别系统为使用者提供了语音识别训练,以掌握使用者的口音、语调、语速以及朗读习惯,便于提高识别率。
在Microsoft Office中,语音输入有“听写”和“声音命令”两种工作模式(见图1-38)。“听写”利用语音输入文字;“声音命令”利用声音来对菜单、工具栏和对话框发出控制命令,实现对文档的对应操作。
图1-38 微软输入法中的语音输入
当用户第一次执行“工具 — 语音”命令时,Office将弹出语音识别向导,让识别系统对读者个人的语音进行识别训练(见图1-39和图1-40)。整个训练大概持续10分钟左右。在Microsoft Office中,语音输入必须在微软自带的输入法模式下才有效使用。
图1-39 调节麦克风音量
图1-40 识别系统对读者个人的语音进行识别训练
语音输入的不足之处在于,它要求输入环境的安静与发音的准确和洪亮。由于系统中语料库的前后关联,一处错误就会引发出一连串的错误。若朗读者的地方口音偏重,则输入结果更不可想象。专业录入员采用这种方式工作,宽敞的计算机房变成一个个隔音的小空间,而且连续数小时的朗读,无疑劳动强度会很大。非专业人士使用计算机录入,通常是一边思考,一边录入,而语音输入要求输入者高度集中在语音的准确、流畅上,而很难把注意力放在问题的思考上。