语料库驱动的短语配价型式研究
上QQ阅读APP看书,第一时间看更新

2.3.3 词束

Biber等(1999)将词束(lexical bundles)定义为在某个语域中经常重复出现的多词序列。这个定义包含了三重含义:首先,词束是一个多词单位,其次,频数是判断词束的主要标准,第三,词束考虑了文本语域的因素,重点强调了词束在不同语域中的语篇功能。根据Biber等(2004)的考查,Salem最早于1987年就开展基于法语政府文件语料库的词束研究,Altenberg最早调查分析英语语料库中的复现的词的序列,而基于大型语料库进行大规模系统研究词束的是Biber等(1999)。对于他们早期的研究工作,Biber等(2004:373)曾做出过这样的总结:①研究采用了语域的视角,考虑了口语会话和学术书面语的差异;②研究基于大型语料库(每个语域有500万词次),数据规模庞大;③频数是判断词束的主要标准,根据经验来设置频数的临界值;④重点考察了四词、五词、六词词束,词束的长度要大于其他以往的相关研究。

目前,从语料库中提取词束,主要采用的是对语言进行机械切分的技术。语料库检索软件Wordsmith Tools中的“词丛”(cluster)功能,可对语料进行两词以上的自动切分。切分的工作原理非常简单,如对“I saw a saw saw a saw”进行三词词丛切分会得到:I saw a,saw a saw,a saw saw,saw saw a,saw a saw等五个单位。软件可自动统计所切词丛的频数信息。Biber等(2004)指出,大多数通过自动切分得到的高频词束并不是习语性表达,相反,一些习语和固定表达在机切词束中出现的频数并不高。另外,绝大多数词束并不是结构完整的语言单位,在口语语料中只有约百分之十五的词束是结构完整的单位,在笔语语料中只有约百分之五。虽然这些词束在结构上不完整,但复现率非常高,远远超乎语言使用者的语言直觉。

另外,并不是所有的词束对语言研究都有价值。那么,研究者应该挑选哪些有用的词束呢?Biber等(1999,2004)提出了两个标准:第一个是频数,即词束的复现率一定要高。但问题是,复现率达到多高的词束才有意义,这涉及频数临界点的设置。Biber等(2004:376)也承认频数临界点的设置是个经验值,具有一定的任意性。在实际研究中,研究者往往结合研究目的和对象自行设定,如Biber等(1999)最初设定的临界点是每一百万词出现十次,之后又把临界点提升到每一百万词出现40次(Biber,Conrad & Cortes,2004)。Cortes(2002,转引自McCarthy & Carter 2006)设置的频数临界点为每一百万词出现二十次,McCarthy & Carter(2006)设置为每一百万词出现四次。应该采用哪个标准,研究者莫衷一是。虽然遭到批评者的诟病,但是相关研究还是采用经验值,因为设置频数临界点的目的是获得复现率较高的词束,屏蔽掉一些出现频率不高的干扰信息,虽然这样做也可能会屏蔽掉一些习语和结构意义固定的表达,但是这些表达在实际语言使用中使用的频数本来就不高,并不是词束研究关注的重点。Biber等(2004)也指出,频数值是不具解释性的,使用频数信息的意义在于,它能够帮助我们找到仅靠语言直觉无法觉察到的语言使用的范式。当然,通过频数信息找到的范式必须进行再加工,从语言学层面上进行阐释。使用频数信息的另外一个意义在于,依靠频数,我们可以判断词束在多大程度上是作为一个整体储存在人的大脑中,并作为一个预制性语块被语言使用者使用。换言之,相较于出现频数低的词束,出现频数高的词束更有可能作为一个免于分析的语块被储存和使用。除了频数之外,分布(distribution)也是判断词束的一种重要标准。所谓分布,指词束在不同文本中的覆盖率。考虑分布,主要是为了避免因个别文本的语言特征而引起词束出现频数的异常。同时使用频数和分布,能够最大可能地提高词束判断的科学性。

通过对语言自动切分获得的词束需要做进一步的语言学分析。Biber等人使用三维一体的分析方法,对词束进行结构描述、功能分类和语域比较。如果按照传统语法描写规则,大多数词束在结构上是不完整的,是支离破碎的,是随意的字符串,语言学意义并不大。但在Biber看来,这些词束绝对具有清晰的结构关联,它们通常包括一个小句或者短语的起始部分,紧跟着另外一个嵌入式结构的首词,如一个非独立的补充句或者介词短语。Biber把词束的这种结构描写成“结构框架+空位”(structural frames+a slot)。其中结构框架承担填补空位的新信息的“语篇锚”(discourse anchor),用于告诉听者或者读者如何从态度、语篇组织和命题内容的角度去理解新信息。从Biber对词束结构的描写中我们可以看出,他们还是采用了传统的语法范畴,如词性、句法功能等。这一点给我们的启示是,在描写短语时,可适当借鉴一些传统的语法范畴。词束的功能分析不可避免地受到已有语言学理论的影响。他们主要对词束的功能进行了分类,从大的类别上区分了三种,即立场表达(stance expression)、语篇组织(discourse organizer)和指示表达(referential expression),并且对每个大的类别又进行了更为细致的分类。这三大功能被认为是词束的三个首要功能。Biber等人在具体分析词束功能时,主要通过归纳法,即把意义和用法相似的词束归并在一起,然后总结归纳出其共同的功能。但是有时也会出现一个词束兼具多种功能的情况。将词束的结构和功能联系之后,他们发现在二者之间有着非常直接牢靠的关系,即某种结构的词束倾向于表达某种特定的功能。在对词束进行不同语域类别间比较之后,他们发现词束的结构、功能和应用的语域类别之间存在着紧密的联系,不同结构、功能的词束在不同的语域内的使用与分布是不一样的。因此,Biber等(2004:400)大胆地假设,语言使用者是把词束作为一个无需通过生成语法结构分析的多词单位去储存和使用的。

McCarthy & Carter(2006)也采用了自动切分词束的方法来研究英语口语中的多词单位。在他们看来,在口语语料库中通过自动切分获得的大多数词束虽然在句法上不完整,但却是具有意义的词汇串,是“语言交互单位”(units of interaction),具有“语用整合性”(pragmatic integrity),表达各种语用交互功能,如标记话语、顾及体面、表达礼貌、模糊语等,体现的不是交际内容或者命题,而是说话者和听话者之间的交互关系。由于这些具有语用功能的词束在句法和语义上往往不完整,因此对于它们的分析必定涉及大量的定性工作。该研究的意义在于:首先,再一次验证了单个单词并不是最好的描写语言的单位,词汇也不是一个杂乱无章的集;其次,通过自动切分获得的词束,虽然大多数在句法和语义上并不具有完整性,但却是“一气呵成的、连贯的、有词汇和语法范式的、可表达语义和语用功能的话语序列”(O’Keeffe,McCarthy & Carter,2007:63)。有些词束在频数上甚至要超过某些高频使用的单词。

对于词束研究的语言学地位,Sinclair(2008b:410)予以了肯定,他认为用计算机自动切分并提取词束,不但能提升量化研究的准确性,而且其结果能凸显规律性的特征,因此“可以是自成一体的结构模式,其优越性在于它能够更穷尽地勾勒出整个语篇的词汇相貌”(转引自何安平2013:68)。