第1章 口语语料库:语法理论之基础(2004)
1.引言
当卡琳·艾墨(Karin Aijmer)教授邀请我在此次会议上发言时,我有些底气不足,因为我从各种学术职务上退休已经15年了。虽然我一直凭着兴趣追踪最新学术发展,但肯定不能佯装跟得上时代步伐——特别是由于我属于前面的那个时代,那时人们还能有望成为语言研究的通才,而如今这几乎是不可能的。但我仍然感到十分高兴,因为如果说有一个话题能特别打动我的心,那无疑是口语语料库蕴含的巨大潜力。这或许是如今人们能期待从中发现新见解的主要源泉。
我一直对口语抱有很大的兴趣,因为在我看来口语是语义发生的主要源泉,而且意义创造和表意潜势扩展就发生于口语中。但直到录音机出现,我们才拥有了捕捉口语并使其明晰化的手段。由于我自己的语言教师生涯始于录音机发明之前(至少始于唱片公司再也无法阻止录音机的生产之前),我努力训练自己把会话如实地记录和保存下来,但显然这对于所能编辑的语料库的规模有很大的限制。为了积累足够多且能被大规模管理的口语语料,我们需要第二个伟大的技术革新,即计算机。在为计算机化的语料库喝彩时,我们不应该忘记是录音机打破了声音壁垒(即捕捉语音的障碍)并使得口语研究成为可能。具有讽刺意味的是,如今语音录制技术十分发达,我们能偷听几乎任何场景的任何口语对话,于是我们设立了道德委员会和隐私保护机构来遏制我们偷听的权力或者防止我们滥用偷录的对话。[在此我对斯瓦特维克(Svartvik)和夸克(Quirk)表示敬意,我一直把他们的成果作为开放的即时对话语料加以利用。]
本章的主要研究问题是:通过使用尽可能大的计算机化语料库,我们能获得关于口语以及(更为重要的是)关于语言整体的何种知识?我的发言题目意味着我们可以从中学到很多(我原来的题目说的是“语法学之基础”,这也许可以更为有力地表达这个观点),即口语语料库确实是语法学的基础,其中“语法学”(grammatics)指对词汇语法的理论研究,而语法学又置于语言整体理论之中(这个术语必须加以解释,因为人们总是混淆作为语言结构成分的“语法”和作为对该成分进行系统描述的“语法”)。在这个意义上,口语语料库是我们构建语言的词汇语法层理论以及语言整体理论的首要资源。
在我看来,理论和数据之间的对立,即在数据收集和理论建构之间界限分明的对立是站不住脚的。还记得在读艾萨克·牛顿的《光学》时,我暗自思忖,如果牛顿在观察光通过不同的介质并测量其折射率时,心里默念“我只是一个数据收集者,可以把理论建构的工作留给其他人”,物理学不知道会变成什么样。更早期的物理学家因为当时缺乏技术手段而无法进行翔实的观察和测量,被迫在缺乏足够数据的情况下建构理论。伽利略和牛顿已经能够通过实验来进行观察,但这并未使他们把观察和理论——把拓展知识边界的不同阶段之间——相互对立。在录音机和计算机出现之前,语言学家的境遇类似于文艺复兴之前的物理学家:他们不得不进行创新,不得不在无法接触他们最需要依赖的现象时构建自己的数据库。如今语言学家可以期望超越前科学的时代了;但如果我们认为数据和理论是两个相互割裂的领域,或者把学术领域分为数据挖掘和理论建构两个对立的领域,我们的语言研究会受到极大阻碍。
当然,语言学家也不是一点数据都没有。他们一直拥有丰富的书面语篇,其源头为古时遗存下来的极具文化价值的语篇。在欧洲,这已经在基于语篇的学者和理论学家之间激起了争论,此种争论被辛辣地反映于中世纪晚期关于奥克托雷斯(the Auctores)和阿提斯(the Artes)之间发生的“七艺之战”寓言中。然而“奥克托雷斯”象征着把语篇视为范本(把作者视为权威)的观念,即把书面语言视为有价值的客体,而不是视为可以用作证据的样本。这也反过来体现了书面语言的本质,即它是注意力集中时产生的语言,是自我意识和自我监控的话语。这并不否定书面语篇的数据性,而仅仅意味着书面语篇只告诉我们书面语言的特征,因而我们从书面语言来推测语言整体的潜势时必须十分谨慎。毕竟口语在人类种群中首先进化出来,并在人类个体中首先发展起来,而且至少在电子化时代到来前,人们在其一生中使用口头语言比书面语言的频率高得多。
2.口语与书面语
在语言学的大部分历史进程中,语言学家没有选择余地。把语篇当作数据研究意味着对书面语篇进行研究;书面语篇不仅被用作窥探书面语言的窗口,而且被用作窥探语言整体的窗口。新技术的出现使得情况发生了变化。我们现在可能会想说:现在我们可以研究书面语篇来揭示书面语言的规律,也可以研究口头语篇来揭示口头语言的规律。
那么我们从何处得以揭示语言的规律呢?有一种观点认为:可能不存在语言这种东西,只存在说出来或者写出来的言语;于是我们把两者分开描写,分别建立一套语法,认为两者相结合就能揭示我们需要知道的一切规律。对口语与书面语语法是相同还是相异的问题,大卫·布拉泽(David Brazil, 1995)、杰弗里·利奇(Geoffrey Leech, 2000)、迈克尔·斯塔布斯(Michael Stubbs, 2000)等学者进行了大量讨论。显然这个问题没有唯一的正确答案,答案的产生依赖于具体语境和目的,依赖于建立语法的出发点。与此类似的观点是认为“不存在语言这个东西,而只存在……”,无论是只存在“各种方言”“具体语域”“个体说话者”还是“具体言语事件”,都大同小异。此观点表明了一种以反对“一统”之名而疏远理论的倾向,虽然其本身也表明了某种思想观念和理论上的姿态[参见Martin(1993)对民族方法学的评论]。在以限制语言学理论的终极范围为目标的各种努力中,把口语和书面语相割裂的努力看上去最为合理,但这却使“语言”无法得到解释,使我们对语义学的研究显得乏力,而这尤其妨碍了我们对语言表意能力的理解。
也许在现代社会将口语和书面语看作两个独立符号系统的观点最为合理,因为现代社会是一个印刷时代,口语与书面语之间相对隔离——虽然民族国家的口头“标准语言”已经有些混杂了。当语篇以电子化方式书写并以时间序列方式呈现于屏幕之上时(越来越多的口语演说针对的是陌生听众),口语与书面语逐渐倾向于相互融合,两者之间的区别也变得越发模糊。即使没有这种融合,我们也有理由把一门语言,比如英语,视为包含口语与书面语变体的更为抽象的实体。这些变体的存在也没什么奇怪之处;语言本来就是一个可变系统,口头与书写的变量只是许多变量中的一个,其特别之处只在于这个变量涉及不同模态。正是视觉静态书写模态与听觉动态口语模态的差异赋予口语语料库以独特的价值——当然口语语料库自身的独特性就更不用说了。
我想在当前语境下没必要花费时间和精力去处理“口语缺乏结构”这么一个荒唐的观点。这个观点一直在妨碍口语研究,使我们无心关注口语。口语在各方面都和书面语一样具有高度的组织性,否则它无法发挥其功能。书写时你可以删除所有笔误、放弃所有草稿,只留下终极成品提供给读者,但说话时你却做不到。于是最早转录口头对话的学者(假借忠实于数据之名)得意洋洋地指出其所转录语料中出现的各种迟疑(hesitations)、错误起步(false starts)和回溯(backtrackings)现象,并以此证明口语质量低劣——而他们早就在意识上承认此观点了。实际上这严重歪曲了口语的根本特性;更为“忠实”的转录应该以通常的书写形式,包括通常的标点符号进行。在保持客观的幻觉下,这种把口语简化为书面语并把这些捏造的奇异特征强加于口语的做法,突出强调了口语的细枝末节而妨碍了通过口语对语言开展严肃的研究。(但我想这并未妨碍其进入语料库语言学的殿堂。)
3.口语与语料库
首先,语料库为口语发挥的作用与它为书面语发挥的作用一样,即积累大量语篇并加以处理使其能为研究所用。有些类型的口语十分容易获取,比如广播电视访谈、法庭诉讼等,这在最早的柯林斯-伯明翰大学国际语料库(COBUILD)中已经得到体现,其库容高达2 000万词(其中包含1 800万词书面语语料和200万词口语语料)。伦敦-隆德(London-Lund)语料库(我想在那时就已经独自)收集了大量的即时会话语料,其中许多语料随后发表于前面所提到的英语会话语料库(The Corpus of English Conversation)中(参见Svartvik & Quirk, 1980)。罗纳德·卡特(Ronald Carter)和迈克·麦卡锡(Mike McCarthy)在诺丁汉大学建立的剑桥-诺丁汉话语语料库(CANCODE)包含500万词的自然口语语料。规模类似的语料库还有位于悉尼的悉尼科技大学-麦考瑞大学(UTS-Macquarie)语料库,其中包含了工作场所口语语料,这为苏珊·艾金斯(Suzanne Eggins)和戴安娜·斯雷德(Diana Slade)1997年出版的《随意性会话分析》(Analyzing Casual Conversation)一书奠定了基础。到20世纪60年代,在利兹市由山姆·斯派瑟(Sam Spicer)主持的纳菲尔德外语教学材料项目(the Nuffield Foreign Language Teaching Materials Project)中,已经出现了极具价值的儿童口语语料库,其中有的语料以成人访谈儿童的形式呈现,有的以儿童间对话的形式呈现。20世纪80年代,罗宾·福赛特(Robin Fawcett)在入职(当时的)威尔士理工大学计算语言学工作室不久,就建立了小学生语言数据库。
这些只是我所知道的在全球范围内以英语以及许多其他语言开展的口语语料库研究的一些例子。据我所知,这些项目的共同点在于其口语语篇不但以口语形式储存,同时也往往被转写成书面语。英语口语转写存在许多各不相同的惯例。还记得大约20年前召开的一次随意性会话语法工作坊上,我们讨论了当时在用的8种转写体系(Hasan, 1985a),而现在肯定有更多体系在使用。我未能看到人们系统地去讨论(虽然此种讨论是有必要的)这些不同的转写体系蕴含了口语的何种本质,他们给口语强加了何种秩序(或者认为口语缺乏何种秩序)——或者更概括地说,把口头话语转写成书面语意味着什么。
在英语中我们谈论把口语“削减”为书面语,从而隐喻性地暗示某些东西丢失了。我们的确丢失了某些东西。我们知道极具意义的口语音调和节奏特征很大程度上不复存在了。具有讽刺意味的是,许多转写体系——我做调查时存在的大部分转写体系——抛弃了书写形式中的标点符号系统,而标点符号是可以体现某些韵律特征的。当然标点符号不直接标明韵律特征,因为书面语在进化中获得了自己的生命,而如今的书面语通常体现了语法结构上的韵律维度和成分组构维度之间的某种折中。但标点符号确实提供了许多韵律信息,这一点任何人在大声朗读书面语篇时都可以意识到。以不把模型强加于数据为借口拒绝在转写中使用标点符号毫无道理——这好比有人坚持只使用黑白色调来再现具象派艺术以免把色彩强加于鲜花或者宫廷女子的着装上。标点符号的缺失只是进一步夸大了强加于口语的糟糕印象。
有些录音转写包含了韵律信息,这分为两类。一是类似斯瓦特维克和夸克的方式[源自夸克和克里斯特尔(Crystal)在20世纪60年代的工作成果],其中详细记录音高、音响、节拍等韵律信息。另一类(类似我本人的做法)只标注那些被证实了在意义表达中发挥功能的语调、节奏等系统特征——这些特征是语法选择的具体体现,正如在声调语言中这些特征是词汇选择的具体体现一样。使用此种方式转写,是因为我想表明这些只出现于口语中的系统不仅规律性地出现以表达可预测的意义,而且融合于其他公认的语法系统(那些由形态、语序或者词类选择所标示的语法系统)中,正如这些不同的语法系统相互融合一样[附录1中的语篇1至语篇4列举了一些转写惯例,其中语篇1大约在1960年转写于磁带录音;语篇2转写于斯瓦特维克和夸克1980年的语料;语篇3是语篇2的拼写版(某种程度上的“削减”版);语篇4转写于格里姆肖(Grimshaw, 1994)的语料]。
我们的标准拼写法所蕴含的口语话语信息是有缺陷的。由于口语语料库的主要功能之一是呈现这些发挥作用的韵律性系统,在我看来此类语料库所采用的任何转写方式应该至少以某种系统性的方式将这些韵律特征纳入其中。这些特征并非可有可无的额外之物。至少在某些语言中,也可能在所有语言中,语调和节奏都以完全系统性的方式表达意义。
拼写式转写所遗漏的信息十分明显,但其所加入的信息就没那么明显了。拼写法会把自身意志强加进来,这是书面语言独有的意志,表现为成分性的组织形式,而这并非口语的真实特征。词语之间变得界限分明,界限的起始与终结常常被武断确定;标点符号本来用以标示韵律展开的模式,如今却被用以区分更大的语法单位(实践中标点的用法相互之间有很大差异,有些作家仍然更倾向于把它用作韵律标示工具)。诚然,口语也具有组构性(compositional),比如书面语中的句子就源于自然口语中的小句复合体。但口语的构件不太像成分等级中的成分,而更像舞蹈序列中的各种动作;书面语句子在起始时就明确了其目标走向,但口语的小句复合体在起始时目标走向并不明确。(语篇3以例子说明了第二点。)
书面语也在聚合轴施加自己的意志,决定哪些形符(token)属于同一类符(type)。此时“把口语削减为书面语”的效果很大程度上取决于书面脚本的性质。这在组合轴上已经产生了变异,因为不同脚本会加入不同的组成(constituency)形式。在汉语以及越南语中,空格所分隔的是词素(morpheme);在欧洲语言中空格所分隔的是词,虽然在词是什么方面存在很大的变异空间;在日语中空格所分隔的是词素与音节的混合体,虽然你能大致说出哪个词素标志着哪个新词的起始。在聚合轴上,汉语作为一种形态性脚本是最为确定无疑的,对于哪些标志属于同一类型没有任何怀疑空间。英语和法语虽然在原则上使用拼音性脚本,但也表现出强烈的形态性趋势,其在形态音系界面上所出现的许多同形词通常由书写系统来区分。这种书写系统掩盖了口语中的不确定性,以至于像mysticism(神秘主义)与misty schism(模糊的裂痕)、icicle(冰柱)与eye sickle(眼形割刀)等同音词在口语中只有细微的节奏差异,但在书写形式上却相差甚远——詹姆斯·乔伊斯(James Joyce)巧妙地把这点用作其语义表达资源(但只是书面语的资源)。即使像俄语、意大利语等使用音系脚本的更为纯粹的语言,其书写系统也会对语言的规律性进行强化,对其语篇加以约束使之不被形式多样的语义变异所影响,而这些语义变异对其口语的丰富性和效力贡献颇多。
把口头话语,特别是即时会话转写为书面形式以便观察并把观察所得作为语言理论建构的基础,这是有很大问题的。转写是一种翻译,而翻译是一种形式转化。建设大规模的口语语料库并加以标注阐释不可避免地会让人们对这种形式转化的真实本质提出质疑。
4.口语的特征
我将简述语料库研究中曾经调查过的一些特征,并论及这些特征对研究语言整体属性的启示。我把这些特征归为7个方面,但并不遵循某种系统性的顺序,而只是以由易到难的顺序展开。
1)随意性会话的模型
在《随意性会话分析》(Eggins & Slade, 1997)一书中,艾金斯和斯雷德对词汇语法、语义、话语和语类四个层次上的模型特征做了研究。结果发现前两个层次在人际领域(人际元功能)中体现了高度的模型化特征,尤其在语气和情态上更为明显。在语类层两个人发现了故事(story-telling)-聊天(chat)连续体,而观点(opinion)与闲话(gossip)位于两者中间。沿此连续体所排列的10个语类中,两人成功归纳出了叙事(narrative)、轶事(anecdote)、说教(exemplum)、讲述(recount)、观察/评论(observation/comment)、观点(opinion)、闲话(gossip)七个语类的结构。其余三个语类中,对于笑话(joke-telling)语类,两人缺乏足够的研究数据,取笑(sending up)和聊天(chat)则被认为“无法以通用特征来描述”。她们基于口语语料的分析表明随意性会话绝非缺乏结构性秩序。
2)模型组构与重构
在其不久前发表的“语言与创造性:来自英语口语的证据”(Carter, 2002)一文中,卡特突出强调了口语,尤其是随意性口语的创造性潜能。他谈到了口语的“模型组构与重构”,特别强调对话过程中发生的模型组构:一个说话者(speaker)设立了某种词汇语法模型,其中涉及惯用搭配、习语、套语或者众所周知的陈词(proverbial echo);答话者(interlocutor)以此为基础做出应答,但随后却发生偏离,并以不同的词汇语法措辞把它重构为某种新模型。这通常不会局限于某个二人回合(exchange),而可能跨越一长段对话,涉及好几个说话者;但这也可能很快就发生了,正如卡特从CANCODE语料库中所截取的两个例子所示:
【两个学生正在谈论他们共同好友的房东】
A: Yes, he must have a bob or two.
A:是啊,他肯定有点钱。
B: Whatever he does he makes money out of it just like that.
B:他做任何事情都要从中赚点钱,就那样。
A: Bob’s your uncle.
A: Bob是你的叔叔。
B: He’s quite a lot of money, erm, tied up in property and things. He’s got a finger in all kinds of pies and houses and stuff.
B:他有很多钱,投在了房产和各种事情上。他喜欢在房子和各种事情上都要插一手。
【两个从事社会工作的同事正在谈论另外一个喜欢过多掺和个人私事的同事】
A: I don’t know but she seems to have picked up all kinds of lame ducks and traumas along the way.
A:我不知道,但她似乎喜欢一路管各种身心受伤之人的闲事。
B: That—that’s her vocation.
B:那个——那个是她的生活方式。
A: Perhaps it is. She should have been a counsellor.
A:也许是的。她应该去做私人顾问。
B: Yeah but the trouble with her is she puts all her socialist carts before the horses.
B:对啊。但她的问题是她总是把她的社会主义事业本末倒置。
3)单词与短语中的模型
这一点我与迈克尔·斯塔布斯的观察似乎有些矛盾。在《单词与短语:词汇语义学的语料库研究》(Stubbs, 2000)一书中,斯塔布斯认为“语言使用的很大一部分是程式化、规约化和习俗化的”,至少在口语中是如此。当然,要想我们两人的观点都成立的话,一种方法是证明口语主要由程式化的东西构成,其中偶尔夹杂着一些创造性的闪光点。但我觉得这不是让两种特征保持一致的正确方式。在我看来,往往正是在“程式化、规约化和习俗化”特征的使用中说话者的创造性才得以展现。(这一点我后面再倒回来谈。)正如斯塔布斯(Stubbs, 1996)在其早期成果中有所预见、并在其最近关于扩展词汇单位(extended lexical units)的研究中所显示的,只有通过积累大量的口语语料我们才能打开通往这些根本规律的通道;如果这些规律可以通过此种方式来呈现,那么它们必然存在于这些口语语料中。要使偏离某范式有点意义,该范式必须已经预先存在。
4)语法中的模型
迈克尔·斯塔布斯给他的书取的副标题是“词汇语义学的语料库研究”,苏珊·霍斯顿(Susan Hunston)和吉尔·弗朗西斯(Gill Francis)的书名为《模型语法:英语词汇语法之语料库驱动研究》(Hunston & Francis, 2000),前者名为“词汇语义学”,而后者名为“词汇语法”。我在其他地方讨论过霍斯顿和弗朗西斯这本书。在我看来,她们的成就在于非常成功地以翔实的方式(以高得多的精密度)把语法拓展到了词汇与语法的中间地带;这与理论语法没有任何冲突,至少从我对理论本质的理解来看是如此;实际上她们使用了大量已有的语法范畴。语法的这个部分包含一个非常复杂的精细范畴体系,没有语料库的帮助难以探究。这同样需要有一个口语语料库,因为这些模型最可能在口语中得以演化和持续更新。
5)评价的语法
艾金斯和斯雷德谈到人际意义在多种随意性会话中的核心作用,并在分析过程中加以展示。我们对人际元功能的理解尤其得益于马丁的贡献,包括他的《英语语篇:系统与结构》(English Text: System and Structure, 1992)、多篇论文以及与彼得·怀特(Peter White)合著的《评估语言:英语评价系统》(The Language of Evaluation: Appraisal in English, 2005)。马丁特别关注“评价”领域,包括鉴赏、情感、判断、分级等系统,由此说话者得以表达其个人观点、喜恶以及他们对其言辞内容的介入程度和方式。这些语义特征过去一直难以研究,部分是出于思想观念上的原因——过去这些特征未被视为系统性的意义成分,但同时也是因为它们是由令人迷惑的混合式词汇语法资源体现出来的,包括形态、韵律(语调和节奏)、各种封闭和开放词类、结构中的成分顺序等。马丁发现这些意义实际上是语法化的,也就是说它们在使用时具有系统性。为了证明这点你需要接触大量的数据,而且必须主要是口头话语数据。这并非说评价在书面语中不显眼——它们挺显眼的,即使常常以隐晦的方式凸显(参见Hunston, 1993),而是说其系统潜势在口语中体现得更充分。
6)“非标准”模型
对那些有悖于书面语规范的语法模式加以指责具有悠久的历史。这自然是因为语法学主要是在书面语研究中发展起来的(缺乏文字体系的文化往往发展修辞理论,但不发展语法理论),同时也因为语法学家像词典编纂家一样被视为民族语言品格的守护者。我想这个观点此处无需多言。但正是因为在书面语中有些模式不出现,所以我们需要口语语料库来揭示它们。此处并非指为报刊记者所钟爱的大众化“语法错误”,这些现象即使没有语料库的帮助也很容易编造出来,并且我怀疑关注餐桌礼仪语言是英语特有的现象,也许法国人也类似,我听说过此事。我指的是那些更有趣、更具生产力的创新表达,它们在口语中不为人注意地出现,但却还未进入书面语——而且往往难以在有意识的思维状态下顺利表达,如下文我自己的发现所示:
It’s been going to’ve been being taken out for a long time [of a package left on the back seat of the car].
它已经被拿出来很长一段时间了[指放在车后座上的一个包裹]。
All the system was somewhat disorganized, because of not being sitting in the front of the screen [cf. because I wasn’t sitting...].
整个系统都有些乱套了,因为当时没坐在屏幕前[比较:因为当时我没坐……]。
Drrr is the noise which when you say it to a horse the horse goes faster.
“嘚儿驾”这个声音当你吆喝给马听时,马会跑得更快。
Excuse me—is that one of those rubby-outy things [pointing to an object on a high shelf in a shop]?
打扰一下——那是其中的一个破玩意吗[指着商店里一个放在高架子上的物体]?
And then at the end I had one left over, which you’re bound to have at least one that doesn’t go.
最终我留了一个,而你一定至少有一个,那是不行的。
That’s because I prefer small boats, which other people don’t necessarily like them.
那是因为我更喜欢小船,而其他人未必喜欢。
This court won’t serve [cf. it’s impossible to serve from this court].
这个大厅不行[比较:不可能从这个大厅获得服务]。
7)语法复杂性
多年以前我开始计算词汇密度,这被我定义为每个级阶性(非嵌入)小句中的词汇项(实词)数量。我发现口语与书面语之间有一个重要的差异:在书面语样本中其平均值为每个小句6个词汇项左右,而在口语样本中为2个左右。当然不同语域会有很大差异。吉恩·尤瑞(Jean Ure)发现一系列语篇类型的词汇密度沿一个连续体分布(Ure, 1971)。然而她计算的是语篇中词汇词项占所有词汇总数的比例,其结果也有所不同,因为口语表现出更强的小句性特征(使用更多但更短的小句),而书面语表现出更强的名词性特征(使用更少但更长的小句)。迈克尔·斯塔布斯因使用计算机化的语料库而采纳了吉恩·尤瑞的模式,这是有充足理由的,因为采用我的方法必须识别小句,因而需要一个复杂的解析程序。但基于小句的计算方法对口语与书面语之间的对比来说更有意义。
另一项同样有趣的发现我之称为“语法复杂度”,通过小句复合体中包含的级阶性小句数目来量化。小句复合体指任何在结构上相关联的级阶性小句序列,是对书面语中的句子在口语中的模拟(当然也是书面语句子的本源)。即时性口语中的小句复合体往往变得特别长且特别复杂(参见附录1的语篇3和语篇5)。我们如果对小句复合体包含的并列和从属关系加以分析,就可以理解其复杂性。这类现象在书面语中十分罕见,而在口语中它们往往出现在对话中某个较长的独白性话轮里(也就是说,它们由对话触发,但却由单个说话者建构,而非跨多个话轮建构)。由于对话通常包含许多非常短小的话轮,其中每个话轮只包含一个小句,而且常常是不纳入复杂结构中的零句,因而对此类对话的语法复杂度均值进行计算毫无意义。可以断定的是,某个小句复合体越复杂,其越可能出现于口语而非书面语中,但是只有在对自然发生的口语进行更多的语料库研究之后才能得出更为充分的结论。
5.口语语料库面临的问题
现在我们来谈谈当语料库语言学家试图更加深入地探究口语的神秘特征时所面临的一些问题。我已经提到了其中一个有问题的领域,即以书写方式来表征语音的问题,此处我想再多谈些想法。如我所言,录音转写存在许多不同的惯例,而所有惯例都以这种或那种方式使口语有所扭曲。
虽然韵律标记缺失是一个明显而严重的缺漏,但却能以这样或那样的方式补救。再过几十年,也许人们就发明了语音识别系统,能在音系层上给韵律特征(语调与节奏模型)赋值(即能把这些特征识别为有意义的选择);同时我们也可以探究那些已有技术可能性但对词汇语法和语义用处较小的特征的值,即可以基于对音频、音幅、音长等基本参数的分析在语音层上对口语进行标注。
如我所述,更严重的问题是过度转写,特别是使语音带上虚假奇异色彩的过度转写,由此口语被弄得看起来十分古怪,其中重复、错误起步、清喉咙声音等特征也被一本正经地转写到语篇中。遗憾的是这种做法十分普遍,它不仅使话语蒙上了一层虚假的奇异色彩——人们也许可以告诉自己忽略这一点——而且更令人担心的是,它把那些口语常常仰仗的、实际上充满意义的说话特征淹没于杂乱的噪音之中,比如言语方向的迅捷变化、艾金斯和斯雷德所谓的“被遗弃的小句”结构、音系和形态上的嬉戏、其他富有创新的表意片段等等。诚然这些特征与纯粹错误之间的界限难以分清,但这并不意味着我们无需去尝试。可能的话,我们可以去尝试在自己不注意的情况下,给自己录制一段持续时间较长但却十分随意的会话,再看看这段忠实记录自我话语的录音中,哪些有趣的细节你会删除,哪些会保留下来。
即使我们抱着世上最好的意愿、使用世上最好的技术来转写,还是有一个根本性问题存在。口语不是用来书写的,任何视觉表征都会以这样或那样的方式对其加以扭曲。这个问题与编舞者试图给舞蹈做标注一样:当你想传授一套复杂的动作,或者想为将来的舞者保留下某位编舞者特定版本的芭蕾舞时,这些标注可用以辅助记忆。但你不会通过研究这些转录的书写符号来分析一段舞蹈。自然许多口语表达模型也可以在书写形式上看到;但还有许多其他模型我们无法看到——连续与断续的类型、节律的变化、音色(发音品质)上的副语言特征、各种程度的确定性/不确定性、赞同/反对等——为此我们需要直接去分析口语语篇。想要自动处理这些特征,我们的能力尚有不足。
另一个主要问题在于语言本身的特性,这是所有语料库研究所面临的问题,但对于口语来说尤为严重,我们可以称之为词汇语法困境。仔细审视词汇语法连续体[我接受这种一体化观点,以反对砖块加抹灰似的词汇加句法规则的观点;此观点由迈克尔·斯塔布斯(Stubbs, 1996)基于辛克莱(Sinclair)和我的方法原则而明确提出]——如果我们沿着连续体从语法端往词汇端看,则词汇端的现象最容易处理,因而语料库的发展方向是以词汇化的方式来组织,通过单词,即词汇语法项的书写形式来处理的。所以语料库主要被词汇学家而非语法学家用作其工具。
原则上来说,语料库对于语法研究必不可少且大有裨益,正如其对词汇研究的必要性和意义一样。这一点我想已经基本被大家接受了。只是把语法研究清楚要难得多。像英语这样的语言中词汇可以在连续体的各处发挥作用,既有the(这、那)、and(和)、to(向、到)等语法词项,也有sun(太阳)、moon(月亮)、stars(星星)等词汇词项,以及behind(在后面)、already(已经)、therefore(因此)等介于两者之间的词项。这些词项的出现很容易检索、计算和语境化。然而sun、moon、stars等词项把其大部分意义都表达得一目了然,但the、and、to等词项传递给我们的潜在信息却很少。如果我们直接去观察这一类词,会发现它们传递给我们的信息常常显得微不足道。连续体语法端的模型所具有的一个讨厌的特征就在于越容易辨识的模型越无关紧要。
正是在这个方面口语给基于单词的研究体系提出了一个特殊问题:与书面语相比,口语通常显得语法化程度更高。相较于书面语,口语在组织其表意潜势的方式上更倾向于选择语法系统。这一点我们已经在对比词汇密度与语法复杂度的两种语义复杂性处理方式时认识到了:书面语倾向于把更多的信息置于词汇中,因而更容易通过词汇搜索的方式来检索。看看下面的几组例子(并参见附录1语篇6中所引用的例子):
Sydney’s latitudinal position of 33° south ensures warm summer temperatures.
悉尼南纬33°的位置保证了其温暖的夏季气候。
Sydney is at latitude 33° south, so it is warm in summer.
悉尼位于南纬33°,所以夏季温暖。
The goal of evolution is to optimize the mutual adaption of species.
进化的目的是优化物种的相互适应性。
Species evolve in order to adapt to each other as well as possible.
物种进化是为了尽可能好地相互适应。
如果你研究cause(原因)这个意义的表达形式,就可以发现英语书面语中有一整套把此意义加以词汇化的动词——比如cause(原因)、lead to(导致)、bring about(引起)、ensure(引发)、effect(结果)、result in(造成)、provoke(引起)等动词——并可以把它们与两边(通常是名词化)的原因和结果同时检索;类似地还可以发现be the cause of(是……的原因)、be responsible for(是造成……的原因)、be due to(由于)等表达形式中相关的名词与形容词。我们要花费格外多的精力才能在语料库中检索到通过小句连接方式体现此类关系的实例(主要是口语实例),此类实例中,cause的意义通过so(所以)、because(因为)、as(由于)等并列或从属连词来表达。这至少有三个原因:(i)这些检索项往往是多义的(且与语言中的其他成分自由搭配);(ii)原因与结果都成了小句,因而分散得多;(iii)在口语中语义关系与参与者成分往往都具有更高的语法化程度,且通常以it、them、this、that等衔接指称词项的形式出现,必须通过长距离搜索才能找到它们的指称来源。因而与书面话语相比,在口语话语中建立一套关于因果关系的语料库语法需要花费长得多的时间;其他语义范畴的情况也与此类似。需要注意的是,这并非因为这些语义范畴在口语中不存在;相反,在口语变体中语义关系的表达往往更加清晰。当你需要把书面表达形式转换成口语时,就会发现这些书面语形式含有较多歧义。这些问题多数是由这些语义关系的体现形式,即更为语法化因而也更隐晦的体现形式所导致的。
相同现象的另一个方面、但属于英语所特有的方面,在于物质过程通常被去词汇化。这个效果导致gash(砍伤)、slash(猛砍)、hew(砍劈)、chop(剁碎)、pare(削皮)、slice(切片)、fell(砍伐)、sever(切割)、mow(割刈)、cleave(劈开)、shear(剪切)等词都被cut所取代。这与短语动词的偏好相关,这种偏好在类似时期非常盛行,但也标志着小句的过程成分向语法化方向发展的趋势。奥格登(Ogden)和瑞恰兹(Richards)在20世纪30年代设计基础英语时,通过依赖于短语动词构式,发现除了18个动词之外所有其他动词他们都不需要[他们会要求我说“可以废除(do away with)这18个动词之外的所有其他动词”];通过使用所选定的高频动词,他们可以改写各种不同语篇(包括圣经语篇)来支持他们的说法。如我所说,这是英语的独有特征;但我怀疑语言的书面变体倾向于使用更为词汇化的意义识解方式。
我觉得在语料库语言学中,特别是与口语语料库相关的部分中,需要努力找出某些方法来设计供语法学家所用的语料库——或者说,没人会局限于语法学家或词汇学家的单个角色来设计供词汇语法连续体中语法端的语言现象研究之用的语料库。毫无疑问,霍斯顿和弗朗西斯在其“模型语法”研究(Hunston & Francis, 1999)中证明了语料库是拓展我们语法知识的基本资源。语料库驱动的语法需要语法驱动的语料库,这是有待我们去完成的工作。
6.基于语料库与语料库驱动的方法
艾琳娜·托尼尼-博内利(Elena Tognini-Bonelli)在其专著《运用中的语料库语言学》(Corpus Linguistics at Work, 2001)中把语料库语言学定义为“应用前的方法论”,它采用经验主义方法对语言使用进行描述,置身于语境-功能的意义理论中,并充分利用新技术手段。在这个框架下,她发现新的语言事实导致新技术手段的使用,并进一步导致了新理论的建立。令人诧异的是,虽然她拥有如此前瞻性的视野,却对“数据的增加和计算方法的进步会引起哲学观上的重新定位”这件事感到奇怪,毕竟物理学就是这样发展的,其中数据的增加和测量的改进改变了人们对知识和理解的整体观念。在语言学中我们更可预期事情的确如此,因为认知和理解本身就是表意过程。口语语料库完全可能导致此类重新定位的事情出现。
与霍斯顿和弗朗西斯一样,托尼尼-博内利也强调“基于语料库”的描述与“语料库驱动”的描述之间的差异。我原则上接受这个区分,但有两个保留意见,或者说两条附加说明。第一,这个区分本身是模糊的,语法研究中有许多语料库运用方法无法准确地归入任何一方——比如人们刚开始时把某个语法范畴作为尝试手段,但随后用语料库分析结果来优化此范畴或者用其他范畴取而代之。[如果允许以我自己的研究为例,我会把我对“pain”这个词的语法研究(Halliday, 1998a),以及佐伊·詹姆斯(Zoe James)和我开展的对归一性和主要时态的量化研究(Halliday & James, 1993)置于两者之间模糊的中间地带。]由此就有了第二条说明:语料库驱动的语法并不能与理论相脱离[参见Matthiessen和Nesbitt(1996)的“论理论中性的描述”]。正如我在另一篇文章“话语的语法基础”(Halliday, 2001)中所述,霍斯顿和弗朗西斯的书中有许多地方依赖于语法理论。我不是说她们自己对此加以否认——她们一点也不反对理论;重要的是要把此类含义从“语料库驱动”这个观念中剔除出去;这个观念本身明显就是一个理论概念。
我觉得托尼尼-博内利自己也不相信理论中性的观点,但她的表述中也许透露出些许此等意味(Tognini-Bonelli, 2001: 184):“如果聚合体未被排除于此种语料库驱动的语言观中,也会被视为从属于组合体。因而语料库驱动的语言学首先是关于言语的语言学(a linguistics of parole)。”我想聚合体与组合体是描写的两个轴,对于两者我们都建立了潜在的理论范畴:结构是关于组合体的理论,而系统是关于聚合体的理论。系统理论中我们在聚合轴上建立了最抽象的理论描述;这么做是有理由的(关键是通过这个途径来映射语义更为容易,因为此时对规律的看法不再受结构性局限的约束),但这并不意味着结构就不是一个理论建构物了。[弗斯(Firth)首先创立了系统-结构理论,但并未赋予系统以理论优先性;他在音系学中发展了系统的优先性,但其考虑完全不同。]因而我并不认为语料库驱动的语言学是关于言语的语言学——无论如何,关于言语的语言学这个概念本身是不是特别自相矛盾?因为一旦你从事语言学研究,你就已经超越了实例领域了。
我想到关于言语语言学这个概念的一种可能的解释:它是这么一种理论,解释的是为何有些实例(actes de parole)比其他实例受重视得多,换句话说,它是一种文体学理论。但语料库语言学隐含的原则是每个实例具有相同权重。实例的价值在于它是窥探系统的窗口,即窥探显现于语篇中的潜势的窗口。语料库使我们更准确地窥探、更接近潜在的系统——或者换句话说,潜在的语言(langue)。“语料库驱动的语法”是语法学的一种形式,也是语法学研究的主要源泉之一。
7.口语的特征:最后一点说明
我一直假定口语语料库包含着大量“真实”数据,即自发、即时、自然的言语——这可能是指对话,虽然其中可能包含着许多冗长的独白片段。这并非因为这些作为语篇的话语有任何固有的优越性——如果有的话,在此文化中其蕴含的价值也很低——而是因为语言的根本特性,即其语义发生或意义表达的潜势在不带强烈自我意识的说话过程中展现得最为明显。这种说话过程正是系统模型的建立和维持之所在,其中全新的实例模型连续不断地被创造出来;实例模型也能变成系统模型,但并非借助只具例外性价值的单个实例(即我所谓的哈姆雷特因子)来实现,而是通过大量难以察觉、难以回想的言语实例的量化效果来实现。
为此,我认为对口语的量化研究应该享有高级别优先性,由此建立大规模频次模型,从而勾画出语言的特征架构,即建立起布拉格学派语言学家所谓的语言特征学(characterology)。其重要意义在于它能提供一个儿童学习母语的总体框架,并为语域中的系统化变异设定参数。其中说话者所意识到的其语言的功能变体其实是对词汇语法选择中概然性的重设。此类研究的经典之作是扬·斯瓦特维克(Jan Svartvik, 1966)对英语语态系统变异的研究。正如内斯比特和普拉姆(Nesbitt & Plum, 1988)对英语小句复合体的量化研究所示,斯瓦特维克的研究同时也显示了系统之间存在部分关联的重要特性。我假设语言的各种一般性语法系统往往趋向于两种概然性特征中的一种:要么概然性大致等同,要么出现大约一个数量级的扭曲;我曾解释过为何我认为这有道理(Halliday, 1993b)。但这只能通过对自然发生的口语进行大规模量化研究来检验。必须明确的是,我认为这类分析不会取代对具体语篇中措辞模型的质性分析,但确实能为研究这些模型如何发挥作用带来新的启示。
通常人们认为,从语言整体进化和儿童语言发展的角度来看,人类语言本质上是对话性的。我没什么理由去质疑这点;其他灵长类动物(就像我们自己一样)会发出警告、炫耀或者其他情感符号而并不期待获得反馈,但这作为一个反对意见并不值得严肃考虑。对话又为独白性活动提供了场景,这在实例层面和系统层面都成立:独白以对话互动过程中延展性话轮的面貌出现,这点能通过规模适当的随意性会话语料库来证实。显然独白是许多系统变体的默认条件,比如人们进行布道、发表演说、撰写著作、广播讲话时;即使人们这么做在很大程度上是为了自我满足,但这么做的原因也只是有其他人倾听他们说话(或者至少听到了他们说话)、阅读他们的著作而已。
任何口语独白都可视为延展性话轮:要么是由(语境)系统赋予说话者,比如像会议论文一样;要么是不得不设立或争夺,就像随意性会话中的情形。说话者有许多技巧来掌控局面、延长其话轮。其中有些技巧正如艾金斯和斯雷德所说是语类性的,比如穿插一个笑话,或者讲述一段个人故事。但有一个十分有效的策略是语法性的,即使用小句复合体。其诀窍在于让听者意识到接下来还有另外一个小句,当然具体怎么做要视语言而定。在许多语言中两个主要的相关资源就是语调和连词。这其实是在词汇语法形式上——在措辞上——识解逻辑语义关系的两个主要机制。前面我把这些十分复杂的小句复合体视为非正式口语的特有现象,它们把听话者引入到动态变化的音系-句法连接模型中。这并不是说它们唯一的功能就是掌控局面;但它们能有所帮助,因为一般来说听话者确实会等待一个小句序列结尾的出现——他们想要打断该序列必须付出积极努力。
小句复合体真正所做的是使说话者能在构成语言表意潜势的多维语义空间内部和周围自由穿行,其中常常发生似乎令人迷惑的话题转向,比如从医生的预期转到待洗衣物成排的走廊,再转到让一个满怀希望的母亲崩溃的危险,同时还要与前面所说的所有内容保持连贯的逻辑关系(参见附录1的语篇3)。这里的逻辑是一种语法逻辑,而非形式逻辑;形式逻辑是精心设计下的语法逻辑的产物,正如书面语中的句子是口语中小句复合体精心设计下的产物。这种即时性的语义“编舞”现象我们极少看到,主要见于未自我监控的口语话语中,且典型地出现在穿插于对话中的各种独白里,但它却代表了语言的强大功能中具有重要意义的一个方面。
本章中我一直在努力说明为何我认为口语语料库是理论研究的关键资源:不仅仅是口语研究,它还是语言整体研究的关键资源。由于在持续的、非自我监控的说话过程中,我们能够通过内省回忆起来的内容与人们实际所说的内容之间表现出的差异最大,口语语料库为我们理解语言作为符号系统与符号过程的本质提供了新的维度。这个差异的存在不仅是由于即时口语的话语模式在加工时离有意识的注意距离最远,也是由于即时口语与不断发展的社会符号语境最为错综复杂地交织在一起。托尼尼-博内利认为一切语料库研究都隐含着一套有关意义的语境理论,这个观点在任何其他语境中都不如在非正式会话语境中具有说服力。韩茹凯和卡梅尔·克洛兰(Carmel Cloran)对母亲与三至四岁孩子之间自然发生的对话进行了语料库研究,结果显示研究不仅必须关注意义交换所发生的情景,而且必须发展一套语境层的理论模型作为其整体描述策略的一部分[Hasan & Cloran, 1990 (2009); Hasan, 1991, 1992b, 1999b; Cloran, 1994]。当人们词汇语法中的语义发生潜能被用来影响物质和符号环境,把环境识解和再识解为意义时,人们的表意潜势就被激活了,由此也被持续不断地修正与延展。在此过程中,由于书面语经过了更为精心的设计,其要求更集中于词汇语法的表意能力上,而口语通常更为流散,往往在更大的范围内漫游于潜势网络的不同领域中。因而口语有可能提供更多证据来证明那些中等大小的“语法模型”和“扩展词汇单位”的存在,而语料库研究正在为此带来便利。这又有益于克服当前语篇研究的词汇途径与语法途径之间的断层,从而进一步丰富话语分析研究。
弗斯早在1935年就认识到了会话研究的价值,认为“在会话研究中我们会找到更好的理解语言本质与工作方式的钥匙”(1957:32)。他尤为感兴趣的是会话与情景语境的互动,即语篇中可用的各种选择时刻被缩减和扩张的方式。我个人对英语话语的分析始于1959年,那是我第一次录制口头对话以研究其节奏和语调。但首先建立计算机化口语语料库的是辛克莱,他采纳了弗斯的另一条建议——做搭配研究(参见Sinclair, 1966)。多年以后,当辛克莱基于COBUILD语料库的经验做回顾时,他写道:“1961年决心建立会话语料库是我做过的最幸运的决定之一。”(Sinclair, 1991: 16)如今任何致力于对语言的词汇语法做出总体描述的语料库若未包括会话语料都难以立足。克里斯蒂安·麦蒂森(Christian Matthiessen)基于包含口语与书面语变体的语料库发展出了“基于语篇的框架”,即通过对语法中不同特征的量化研究来揭示语域变异在概然率上的变化特征。他的策略包括建立一个被部分分析过的语篇的语料库,并让它能根据持续进行的观察与理解进行修正。我一直觉得这类语法上的概然率,无论是整体性还是局部性的,都对“语言的本质是什么以及语言如何工作”的研究具有根本意义。