语料库的构建具有代表性、结构性、规模性等,具体如下所示。
(1)代表性:在应用领域中,通过在一定的抽样框架范围内采集,并且能在特定的抽样框架内做到代表性和普遍性。
(2)结构性:语料集合的结构性体现在语料库中语料记录的代码、元数据项、数据类型、数据宽度、取值范围、完整性约束。
(3)规模性:语料库规模应根据实际情况而定。大规模的语料对语言研究特别是对自然语言研究处理很有用,但是随着语料库的增大,垃圾语料越来越多,语料达到一定规模以后,语料库功能不能随之增长。