1.1 文本素材的基本采集
学习目标
➢ 掌握文本在计算机中的表示方法,了解文本素材的主要特点;
➢ 了解常用的文本素材采集方式,掌握键盘输入的微软拼音输入法。
相关知识
1.文本
文本是人们早已熟知的信息表示方式,如一篇文章、一段程序、一个文件都可以用文本描述。文本是文字、字母、数字和各种功能符号的集合。它通常以字、句子、段落、节、章为单位,记录自然现象、表述思想感情、传达某种信息。人们在阅读时,通常是一字一句、一行一页顺序地浏览。
2.编码形式
在计算机中,西文字符最常用的编码是ASCII码,它用7位二进制数进行编码,可以表示27 即128个字符,其中包括数字字符0~9、大小写英文字符、运算符号、标识符号和一些控制符号。这些字符种类大致能够满足各种计算机语言、西方文字、常见命令的需要。一个ASCII码字符在内存中占一个字节。
汉字字符在计算机中也是以编码形式处理的,汉字输入用输入编码,汉字存储用机内码,汉字输出用字型码。在计算机中存储时,一个汉字占2个字节。
3.文本信息的获取
文本信息采集的方法主要有以下几类。
1)键盘输入法
键盘输入法是利用键盘,按照一定的编码规则来输入汉字。这是最早的文本输入方法,也是计算机进行文字输入最普遍的方式。常用的有“微软拼音输入法”、“五笔字型输入法”等。
2)语音输入法
语音输入法是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。利用语音识别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。语音输入法在硬件方面要求计算机必须配备能正常录音的声卡和录音设备,安装语音识别软件。
3)联机手写识别输入法
手写输入法是一种用特别的感应书写笔,在与计算机接口相连的手写板上书写文字来完成文本输入的方法。它符合人们用笔写字的习惯,只要将手写板接入计算机,在手写板上按平常的习惯写字,计算机就能将其识别显示出来。
4)扫描仪+OCR识别输入法
OCR是光学字符识别技术的英文缩写。扫描仪+OCR识别输入法就是将印刷品类纸张上的文字以图像的方式扫描到计算机中,再用OCR软件将图像的文字识别出来,并转换为文本格式的文件。
操作步骤
键盘输入法是利用键盘,按照一定的编码规则来输入汉字。其中,英文字符可以直接从键盘输入,无须编码;汉字输入则必须对汉字编码,可以根据汉字的读音或基本形状用数字或英文字符编码。常用的有“微软拼音输入法”,它是一种基于语句的智能型的拼音输入法,下面是“微软拼音输入法”的操作。
1. 状态条
状态条指示当前的输入状态,通过单击上面的按钮来切换输入状态,以及改变微软拼音输入法的属性设置。状态条属性如图1-1所示。
图1-1 状态条属性
2. 拼音窗口
拼音窗口显示用户输入的拼音字母,每次只能显示一个汉字的拼音,当输入下一个音节或音节切分符时,微软拼音输入法会自动地将上一个音节的拼音转换成汉字并显示在组字窗口中。
拼音窗口的操作如图1-2所示。
图1-2 拼音窗口的操作
提示:
(1)在中英文混合输入或词语转换模式下,不存在独立的拼音窗口。
(2)除非设置了不完整拼音,否则拼音窗口不接受非法拼音的输入。
3. 候选窗口
候选窗口列出了具有相同读音的汉字或词组。用鼠标或数字键来选择候选词语,可以减少击键次数并提高转换准确率。
候选窗口的操作如图1-3所示。
图1-3 候选窗口的操作
1)候选排序
候选排序是指候选窗口中候选字符的排序方式。
● 单字优先 单字排在词组前面。
● 长词优先 长词排在单字前面。
通过以下步骤选择候选排序方法:
(1)单击候选窗口中的排序按钮,弹出排序菜单。
(2)在排序菜单中选择排序方式。
2)候选窗口样式
候选窗口有横排和竖排两种排列样式,通过以下操作来设置候选窗口的排列样式。
(1)在输入法状态条上单击鼠标右键或者单击按钮,激活功能菜单。
(2)在功能菜单上,选择“属性”,打开“属性”对话框。
(3)在“候选提示”组中,选择“横排”或“竖排”。
4. 组字窗口
组字窗口中显示的是经微软拼音输入法转换后的汉字或符号,在光标跟随状态下,组字窗口中的文本带有下画线。在确认输入之前,用户可以编辑组字窗口中的内容。组字窗口中的内容会随输入的上下文而改变。
组字窗口的操作如图1-4所示。
图1-4 组字窗口的操作
1)确认输入
以下任一种情况,组字窗口中的内容被确认并送入编辑器:
● 光标在组字窗口中任意位置,按回车键;
● 光标在组字窗口的最后,按空格键;
● 在逗号、分号、句号、感叹号和问号之后,按任意键。
2)插入
(1)按左、右方向键将光标移到插入点位置。
(2)输入要插入的内容。
3)删除
(1)按左、右方向键将光标移到要删除字符的左边。
(2)按删除键。
4)修改拼音
(1)按左、右方向键将光标移到要修改汉字的左边。
(2)按撇号(~键),光标右边汉字的拼音显示在拼音窗口中。
(3)修改拼音窗口中的拼音。
提示:
(1)组字窗口中最多显示32个汉字,字符数超出这个范围,最先输入的内容被自动确认。
(2)在中英文混合输入或词语转换模式下,组字窗口的操作与上述有所不同。
5. 光标跟随
光标跟随是指微软拼音输入法的编辑窗口(拼音窗口、候选窗口和组字窗口)总处在编辑器的编辑光标处,并随当前编辑光标位置而移动。
如果取消了光标跟随,微软拼音输入法会打开一个类似于传统输入法的输入条,输入条在屏幕上的位置是固定的,不随编辑器中编辑光标而移动。只有当用户确认了输入以后,输入条上组字窗口中的内容才被送到编辑器的编辑光标处。
设置光标跟随:
(1)在输入法状态条上单击鼠标右键或者单击按钮。
(2)在功能菜单上,选中或清除“光标跟随”。
6. 输入条
输入条是输入界面的另一种形式,当取消了光标跟随设置后,微软拼音输入法会打开输入条。输入条上集成了拼音窗口、候选窗口和组字窗口,输入条在屏幕上的固定位置,不随编辑器中编辑光标而移动。
即使设置了光标跟随,如果当前没有可编辑的焦点或者编辑的是一个非标准控件,微软拼音输入法也会以固定的输入条方式打开组字窗口。
提示:在输入条的候选窗口中,候选排列只有横排一种样式。
7. 软键盘
使用软键盘可以输入一些特殊符号,或者用鼠标来模拟敲击键盘的动作。微软拼音输入法有12种软键盘布局:
打开或关闭软键盘:
单击输入法状态条上的软键盘开关。
选择软键盘布局:
(1)在输入法状态条上单击鼠标右键或者单击按钮,激活功能菜单。
(2)在功能菜单上,选择“软键盘”,则显示软键盘布局菜单,如图1-5所示。
图1-5 软键盘布局菜单
(3)从软键盘布局菜单中选择相应的软键盘布局。
8. 功能菜单
通过微软拼音输入法的功能菜单,用户可以调用自造词工具、选择软键盘布局、设置或清除光标跟随、打开“属性”对话框或调用帮助文件,以及查看微软拼音输入法的版本信息。
激活功能菜单:
在输入法状态条上单击鼠标右键或单击按钮,激活功能菜单,如图1-6所示。
图1-6 功能菜单
9. “属性”对话框
在“属性”对话框中,可以根据自己的需要做一些个性化的设置。
打开“属性”对话框:
(1)在输入法状态条上单击鼠标右键或者单击按钮,激活功能菜单。
(2)在功能菜单上,选择“属性”,打开“属性”对话框,如图1-7所示。
图1-7 “属性”对话框
10. 整句转换方式
整句转换方式是微软拼音输入法的默认转换方式。
在整句转换方式下,连续地输入句子的拼音,不必关注每一个字、每一个词的转换,微软拼音输入法会根据输入的上下文智能地将拼音转换成汉字。输入的句子越完整,微软拼音输入法转换的准确率越高。
设置整句转换方式:
(1)在输入法状态条上单击鼠标右键或者单击按钮。
(2)在功能菜单上选择“属性”。
(3)在“属性”对话框中,选择“整句”单选框。
11. 词语转换方式
词语转换方式是以词语为基本输入单位,每输入一个词语的拼音后,按空格键或者回车键将拼音转换成汉字并从候选窗口中选择正确的候选词语。微软拼音输入法最长支持9字。
设置词语转换方式:
(1)在输入法状态条上单击鼠标右键或者单击按钮。
(2)在功能菜单上选择“属性”。
(3)在“属性”对话框中,选择“词语”单选框。
12. 全拼输入
在全拼输入模式下,每一个汉语拼音字母由键盘的一个键来输入。例如,输入“yizhikeaidexiaohuamao”,组字窗口中会出现“一只可爱的小花猫”。
设置全拼输入:
(1)在输入法状态条上单击鼠标右键或者单击按钮。
(2)在功能菜单上选择“属性”。
(3)在“属性”对话框中,选择“全拼输入”单选框。
13. 双拼输入
在双拼输入模式下,计算机键盘的键既可以代表汉语拼音的一个完整声母,同时也可以代表一个完整的韵母。
在双拼输入模式下,每一个汉字的输入需要敲两个键,第一个键为声母,第二个键为韵母。例如,使用微软拼音输入法默认的双拼键位方案,输入“yivikeoldexchwmk”,组字窗口中会出现“一只可爱的小花猫”。
设置双拼输入:
(1)在输入法状态条上单击鼠标右键或者单击按钮。
(2)在功能菜单上选择“属性”。
(3)在“属性”对话框中,选择“双拼输入”单选框。
定义双拼键位:
(1)在输入法状态条上单击鼠标右键或者单击按钮。
(2)在功能菜单上选择“属性”。
(3)在“属性”对话框中单击“双拼方案”选项卡,如图1-8所示。
图1-8 “双拼方案”选项卡
(4)单击“自定义方案”按钮。
(5)逐个选择键盘的键,并定义与之对应的声母和韵母。
(6)单击“另存为”按钮,为方案起名并保存。
(7)单击“确定”按钮。
14. 中英文混合输入
在这种输入模式下,可以连续地输入英文单词和汉语拼音,而不必切换中英文输入状态。微软拼音输入法会根据上下文来判断输入的是英文还是拼音,然后做相应的转换。这种输入模式最适合输入混有少量英文单词的中文文章。
中英文混合输入模式下,采用嵌入式拼音窗口,即不存在独立的,输入的拼音或英文单词显示在组字窗口中,并根据上下文信息进行适当的转换。
在中英文混合输入模式下,输入的英文单词有可能被错误地转换成汉字,出现这种情况时,可以用鼠标或左、右方向键将光标定位到汉字的右边,然后按BackSpace键将汉字反转成英文字母。
BackSpace键的使用:
● 如果光标左边是汉字,则将汉字反转回拼音。
● 如果光标左边是英文字母,则删除这个字母。
设置中英文混合输入方式:
(1)在输入法状态条上单击鼠标右键或者单击按钮。
(2)在功能菜单上选择“属性”。
(3)在“属性”对话框中,选中“中英文混合”复选框。
提示:
(1)中英文混合输入与不完整拼音不能同时使用。
(2)中英文混合输入不能在双拼和词语方式下使用。
注意:
1)标点的输入
常用中文标点与键位对照表如图1-9所示,这些中文标点与状态条上的全半角设置无关,总显示为全角。
图1-9 标点键位对照表
2)偏旁的输入
偏旁是汉字的基本组成单位。有些偏旁本身也是独立的汉字,如山、马、日、月等,这些偏旁的输入,按其字面汉字的读音输入即可。
但是,大多偏旁现在不能单独成字、不易称呼或者称呼很不一致。为方便输入这些偏旁,微软拼音输入法采用它们通行称谓的第一个音来输入,比如“冫”(两点水)用“liang3”输入,“纟”(绞丝旁)用“jiao3”输入。
图1-10列出了偏旁的通行称谓,以及使用微软拼音输入法输入的拼音。括号里的偏旁只能在繁体模式下输入,拼音后的数字是带调输入时的声调。
图1-10 偏旁通行称谓表