上QQ阅读APP看书,第一时间看更新
1.5 语料库
1.5.1 认识语料库
语料库是指经过科学取样和加工的大规模电子文本库,具有如下四种类型。
(1)异质(Heterogeneous):没有特定的语料收集原则,存储各种语料。
(2)同质(Homogeneous):只收集同一类内容的语料。
(3)系统(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实。
(4)专用(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语种不同将语料库分成单语、双语和多语。按照语料的采集单位,语料库又可以分为语篇、语句、短语等。
语料库具备以下三个显著的特点。
(1)语料库中存放的是在语言的实际使用中真实出现过的语言材料。
(2)语料库以电子计算机为载体承载语言知识的基础资源,但并不等于语言知识。
(3)真实语料需要经过加工(分析和处理),才能成为有用的资源。