序一 学习新知识,更上一层楼
张宝林教授的《汉语中介语语料库建设研究》一书就要出版了,这是张宝林教授多年研究成果的结晶,我对他表示热烈的祝贺。张宝林教授要我为此书写序言,我就欣然答应了。
多年来,我一直关注着汉语中介语语料库的建设,参加相关的会议,做主旨报告,积极在会上发言,为会议论文集写序言,从中学习到不少关于中介语语料库的知识。
20世纪60年代末以前,在第二语言教学中,与听说教学法有关的偏误分析和语言对比研究,是建立在结构主义语言学和行为主义心理学的基础之上的。结构主义语言学和行为主义心理学认为,语言学习者在第二语言学习的过程中之所以出现偏误,是由于母语的干扰,这种干扰叫作负迁移,因此,只要通过语言对比研究,找出语言学习者的母语和第二语言之间的差异,预测出语言学习者在学习中的难点以及可能出现的偏误,对于已经出现的偏误就可以通过语言对比的方法加以解释和分析,克服负迁移,从而提高第二语言学习的效果。
在乔姆斯基(N. Chomsky)的生成转换语法和认知心理学的影响之下,赛林克尔(L. Selinker)在1972年提出了“中介语理论”(intermediate language theory)1。这种理论认为,第二语言学习者在学习过程中,会形成一种特定的语言系统,这种语言系统包括语音、词汇、语法、文化、交际等方面,既不同于第二语言学习者自己的母语,也不同于他们所学习的目标语,而是一种随着学习过程的发展而逐渐地向所学习的目标语的正确形式靠拢的、动态的语言系统。由于这是一种介于母语和目标语之间的语言系统,所以叫作“中介语”(intermediate language)。中介语的研究证明,学生在第二语言的学习过程中之所以出现偏误,其原因除了母语的干扰之外,还存在其他方面的因素。
中介语理论认为,学习第二语言的过程具有特定的阶段性,这种特定的阶段性同以这种语言为母语的儿童习得母语的阶段性相似,只是操不同母语的第二语言学习者通过某一特定的阶段所需要的时间不完全相同。
中介语理论考虑到第二语言学习和教学的多种因素,以语言习得研究为中心,把语言对比、偏误分析、比较文化研究与语言习得研究有机地结合起来,试图建立第二语言学习者学习语言的动态系统,这样的研究对于语言学、心理学、比较文化理论与语言教学之间的联系,对于发展普通语言学理论和语言学习理论,都是具有积极意义的。
美国语言学家阿杰缅(C. Adjemian)进一步提出,中介语具有三个特性:可渗透性、“化石化”现象、反复性。2
所谓“可渗透性”,是指中介语会受到来自第二语言学习者的母语和所学习的目标语的规则或形式的渗透。从母语方面来的渗透,就是正负迁移或干扰的结果;从目标语方面来的渗透,就是对于已经学过的目标语的规则或形式过度泛化的结果。
所谓“化石化”现象,是指中介语的顽固性。一方面,学习者的中介语在总体上总也达不到与目标语同样的水平;另一方面,某些第二语言学习者在语言的某些具体形式上,当语言水平达到一定的程度之后,往往就停滞不前,难以进一步提高了。
所谓“反复性”,是指中介语逐步向目标语接近的过程是反复而曲折的,某些已经得到纠正的偏误会有规律地反复出现。
国外中介语理论的这些研究成果,当然是值得我们在第二语言教学中借鉴的。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去做,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
把中介语理论与语料库语言学的方法结合起来,建立中介语语料库,有助于克服传统语言学中完全靠手工方式处理语言材料方法的主观性。这样的中介语语料库具有大规模和真实的特点。
1992年,北京语言学院汉语中介语语料库系统项目立项,这个项目是国家教委“八五”人文社会科学科研规划项目,也是国家对外汉语教学领导小组办公室的“八五”科研规划项目,这个项目的加工语料规模有104万字,具有书面文本断句、分词和词性标注等功能,在汉语中介语的偏误分析、汉语作为第二语言习得顺序的研究方面取得了很大成绩,于1995年11月15日通过专家鉴定。这个项目开汉语中介语语料库研究之先河,具有开创之功。这是汉语中介语语料库研究的1.0时代。
2006年,HSK动态作文语料库研制成功,这是母语为非汉语的人参加高等汉语水平考试(HSK高等)作文的答卷语料库。2018年1月,针对网络安全问题,重新开发了软件系统,提高了系统的安全性,增强了系统功能,规模为424万字。该库始终坚持资源共享的理念,面向全世界免费开放。汉语中介语语料库研究进入了2.0时代。
2012年6月,“全球汉语中介语语料库建设和研究”作为教育部重大课题攻关项目正式立项,于2019年3月对外开放。全球汉语中介语语料库由北京语言大学牵头,由国内外众多的院校师生和学者参加,共同建设。该库的标注语料规模约为1.26亿字,包括笔语、口语、视频3种语料,是世界上规模最大的汉语中介语语料库。为了实现全球共建、全球共享的理念,使不同城市、国家和地区的参与单位能够统一进度、统一管理,还开发了汉语中介语语料库建设与应用综合平台。该库的语料样本多,规模大,来源广,阶段全,背景信息完备,标注内容全面,标注质量优异,设计周密,功能完善,检索便捷,能够反映各类汉语学习者的汉语学习过程与特征,也可以满足科学研究的需求。
本书详细地、系统地介绍了汉语中介语语料库建设的1.0时代和2.0时代,使我们对于汉语中介语语料库建设获得了完整的了解和认识。
语料库的建设是非常艰苦的工作。英国著名语料库语言学家利奇(G. Leech)说过:“只有对收集与建立计算机语料库有第一手经验的人,才能充分地理解建库过程中的艰苦。建立一个对质量、设计标准等给予恰当注意的语料库,比起预先估计的复杂程度,总是要多花费一倍的时间,有时甚至多花费十倍的时间。”在此书出版之际,我向参与汉语中介语语料库建设与研究的人员,表示衷心的感谢,你们辛苦了!
在语料库语言学研究中,国外有的学者对于使用带标注语料库的方法提出质疑。英国伯明翰大学著名语料库语言学家辛克莱(J. Sinclair)提出“干净文本原则”(clean text policy)。他指出,“最安全的原则是依靠原样的文本,不做任何的处理,不包含任何的标记代码”。他又说,“我们用来描述英语语言的范畴和方法不能适应新材料。我们需要全部推翻现有的描述系统”。3他认为,语言学理论应当直接地来自于对干净文本语料库的观察。在他看来,基于语料库的研究虽然注重语料库的真实证据,应用实证的方法来验证理论和假设,但是,由于他们所依赖的理论和假设本身不是直接产生于语料库的证据,而是一种先入为主的假设性的理论,不足以用来描述和解释语料库证据的复杂性和变异性。辛克莱在2000年退休后,离开了伯明翰大学,协助他的妻子托戈妮妮(Tognini-Bonelli)在意大利的托斯坎成立了托斯坎词中心(Tuscan Word Centre)。该中心的目的是培养语言教师和语言学研究者使用语料库。在辛克莱的影响下,托戈妮妮主张“语料库驱动”的方法(corpus-driven approach),首次对“基于语料库”(corpus-based)和“语料库驱动”(corpus-driven)的研究范式进行了区分。她指出,基于语料库的研究范式利用语料库对于已有的理论和假设进行探索,目的在于验证和修正已有的语言学理论;而语料库驱动的研究范式则以干净的语料库文本作为研究的出发点和唯一的观察对象,不受原有的语言学理论的任何干预,完全摆脱了“先入之见”,这样就能对语言中的各种现象进行全新的界定和客观的描述。
面对国际上语料库驱动与基于语料库两种范式的争论,汉语中介语语料库建设采取了“浅层标注”的原则。本书认为,片面追求“标注深度”缺乏可行性,还会加重标注人员的劳动强度,影响标注结果的一致性,增加标注的先入之见和主观性。浅层标注可以简化标注的繁难程度,提高标注的准确性、一致性和客观性,进而推动语料库建设与应用研究的深入发展,更好地为教学与研究服务。
赛林克尔提出的中介语理论注重偏误分析,着重研究学生在第二语言学习过程中出现的偏误,不太关注学生在第二语言学习过程中已经掌握的正确的语言知识。本书提出了“偏误标注+基础标注”相互结合的标注模式,不仅进行偏误标注,同时也注意基础标注;不仅进行偏误分析,也可以进行表现分析;不仅进行横向的断面考察,也可以进行纵向的语言习得研究,检验中介语的可渗透性、“化石化”现象和反复性,从而全面地反映中介语的面貌。这是本书对于赛林克尔的中介语理论的重要发展,也是对于国际第二语言习得理论研究的创新性贡献。
汉语中介语语料库标注的内容,笔语语料包括汉字、词汇、短语、句(句式和句子成分)、语篇、语体、辞格、标点符号等8个层面。口语和视频语料除和笔语语料相同的6个层面之外(口语语料、视频语料无需进行汉字、标点符号两个层面的标注)还有语音标注,视频语料还有体态语标注,共计10个层面的标注。这是目前的汉语中介语语料库中标注内容最全面的,可以满足教学与研究的多方面需求。
在标注方式上,全球汉语中介语语料库采取了“在线标注+多版/分版标注”的方式,标注人员可以根据自己的意愿选择标注内容,用户可以根据自己的需要选择查询。在检索方式上,本书提出了多种不同的检索方式,用户可以使用各种方式来查询自己关注的内容。这些都是本书的重要创新。
现在我们已经进入了人工智能的时代,自然语言处理成为了人工智能皇冠上的明珠,语言学研究与现代科学的联系越来越密切。希望中介语语料库的研究人员在现在已有成果的基础上更上一层楼,不断地进行更新知识的再学习,努力学习新的理论和方法,把我国的中介语语料库建设推向新的高度。
冯志伟
2022年4月10日
于北京后拐棒胡同陋室
1 L. Selinker (1972) Interlanguage. International Review of Applied Linguistics (3): 209-231.
2 C. Adjemian (1976) On the nature of interlanguage systems. Language Learning (26): 297-320.
3 J. Sinclair (1985) Selected issues. In R. Quirk & H. Widdowson (eds.), English in the World. Cambridge: Cambridge University Press.