上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第一节 语料介绍
为了跟踪研究海外华语的使用情况,海外华语研究中心从 2005 年开始建设海外华语语料库。2009 年,海外华语研究中心对东南亚华语语料库进行了用字用语的调查研究。
东南亚华文媒体较多,由于我们在语料获取上受到技术限制,加上其他因素的影响,有的华文媒体的语料无法获得。本次媒体的选择主要考虑了语料的可获取性、媒体影响程度和信息量三个因素。
本次调查的语料仅限于较有代表性的新加坡、马来西亚、泰国的主要华文媒体的语料(下文统称为 “华文语料”) 。语料时间跨度为 2005 年到 2008 年,均来自于网络,我们对其做了去除 HTML 标签信息和广告信息的处理,抽取了网页正文、标题、发表时间等信息。总文本数1为 296 355。
下面是语料的具体信息(括号里为文本数) :
新加坡: 亚洲新闻网(61 197) 、新动网(26 228) 、《联合早报》(63 697) ;
马来西亚: 马新社中文网(29 964) 、《光华日报》电子新闻(63 346) 、独立新闻在线(8 474) ;
泰国: 《世界日报》(43 449) 。
为了更好地研究华语的特点,我们同时进行了华文语料与中国国家语言资源监测语料库语料(下文统称为 “监测语料”) 的比较调查。监测语料来自国家语言资源监测与研究中心平面媒体语言分中心和网络媒体分中心 2005 年到2008 年的语 料2,共 4 474 675 个文本文件,3 709 908 405 字次3(不含部件) ,2 145 386 164词次4。