上QQ阅读APP看书,第一时间看更新
2.4 语料的分词和标注
莎士比亚戏剧英汉平行语料库选用ParaConc软件对中英文语料进行平行处理,但与英语不同,汉语文字之间没有空格,国外软件不能对汉字进行识别和自动计算,常常出现倒码现象。为此,我们选用汉语词法分析软件ICTCLAS对语料进行分词处理。该软件由中国科学院计算机技术研究所开发,其分词规范采用了中国国家标准GB13715“信息处理用现代汉语分词规范”。该软件的功能主要为词汇切分和词性标注。点击该软件的图标,便出现以下窗口:
图2.1 ICTCLAS菜单选项
在图2.1中,选择“操作选项”栏目下的“词语切分”和“一级标注”或“二级标注”,以及“输出格式”栏目下的“北大标准”、“973标准”或XML格式。考虑到“北大标准”与该软件的兼容性很强,我们将“输出格式”确定为“北大标准”。然后,选中“处理文件”,上载需进行词语切分和词性标注处理的中文语料,最后选中“运行”。这样,汉语语料的分词和词性标注便可自动完成。
此外,我们还运用EmEditor软件对中英文语料进行段落标注处理。由于戏剧通常以人物名称作为段落的开始,故而将人物名称作为段落标注的开始。我们在查找栏目中输入正则表达式“\\n X”。“\\n”表示“匹配一个新行”,“X”为具体人物名称。在“替换为”栏目中依次输入“</seg>\\n<seg>X”。<seg>标记表示“segment”。
然后,选中“使用正则表达式”和“全部替换”,这样便完成了所有人物对话段落的标注。操作完成后的文档如图2.2所示。
图2.2 进行分词和段落标注处理的中文语料