第一章 词汇知识的构成:词库与词法
第一节 词库与词法的区别和联系
每个语言中都有一定数量的词以表达思想,学习任何一门语言都必须掌握该语言中一定的词汇量,显然,词汇是语言的重要构成要素。新的词不断出现,一个人在一生中不断学习和掌握新的词汇单位,那么我们如何来衡量一个人是否掌握了他所使用的语言中的词汇呢?我们认为最重要的标准是掌握了一定数量的词汇单位和该语言的词法知识。语言中的词不是杂乱无章、彼此无关的,而是相互之间存在着形式与意义上的各种联系,这些联系决定了语言中词汇的可学性(learnability)。语言使用者掌握了一个语言中的词汇,也就是获得了内化了的(internalized)关于这个语言的词汇知识,或者说是词汇能力(lexical competence)[9]。当一个语言使用者遇到一个类似词的形式时,可能会作出以下的某一种判断:“这是我所用的语言中的一个词,我用过或以前听别人说过”“这个词我以前没有遇到过,但是它可能的意思是什么什么”“这个词我以前没有遇到过,它的意思可能与什么什么有关”“这个词肯定不是我们语言里的词”等。这些判断就是基于一个人所具有的词汇知识作出的。其中既包括了对个体词的知识,也包括了关于词的构成的一般知识,即词法知识。
以下证据可以证明人脑中有关于词法的知识。
证据一:人们可以理解以前从来没有看到过的词。凭借的工具就是头脑中的词法知识。比如以下英语中的词是20世纪90年代以后才出现的:cyberspace、cybersurf、cyberchat、cyberholic、cyberspeak,但是英语母语者在第一次见到这些词时,也可以比较轻松地猜到这些词的意思。因为这些词都包括一个新兴的前缀和一个由先前已经存在的词充当的词根,cyber-这个前缀表示与计算机辅助交流有关,知道了这个前缀的意思,知道了词根的意思,又知道派生词的结构规则,整个词的意思就很容易知道了。
证据二:儿童对母语词法的习得。儿童对语言的习得包括对词法的习得。包括以下方面的内容:
(1)可以从语流中分析出语素。
儿童掌握语言的一个重要步骤就是从语流中切分出有意义的音义结合体,即语素。对于一种陌生的语言,我们无法知道一句话中包含多少个词,不懂英语的人当听到一串连贯的语流时,如听到Thecatsatonthemat这句话时,不知道其中包含几个词,而英语母语者则能轻松地指出其中包括六个词。
(2)可理解语素的音和义以及语素排列成词的规律。
知道语素的音和义是运用语素的前提。对于语素排列成词的规律是在习得大量的词语之后慢慢掌握的,而掌握之后就能理解或者创造新词。
儿童在语言习得中所犯的错误也能证明儿童在习得语言的过程中对词作了词法分析。比如儿童在第一个阶段会说出better(good(好)的比较级),但是在一个后来的阶段,儿童的话语里会出现gooder这个错误形式,在一个更后来的阶段儿童又会放弃gooder,而说better。这三个阶段具有不同的性质。第一个阶段,儿童话语中出现的正确形式better是出于机械的模仿,在这个阶段,儿童有可能还没有意识到better和good之间的关系。在第二个阶段,儿童掌握了形容词比较级的一般构成方式是在原形后加后缀-er,因此创造性地说出了在大人的言语输入中不存在的形式gooder,这一事实有力地证明了孩子习得语言不只是机械模仿,而是进行了分析,归纳出了一条词法规则,并对其加以创造性地运用了,但是这个运用出现了过度概括(over-generalization)的错误。到了第三个阶段,孩子在成人的纠正下,知道了good这个词是特殊的,其比较级形式是不规则的,因此放弃了gooder这个错误形式,重又回到正确的轨道上来了。这个曲折的过程正好显示了儿童对词法知识的逐步习得。
对语言使用者的词汇能力进行分析,可以发现词汇能力包括词库与词法两个部分。
词库(lexicon)是一个语言中具有特异性(idiosyncrasy)的词汇单位的总体[10],存储在语言使用者的头脑中,所以又称心理词库(mental lexi-con)。所谓“特异性”,主要表现在不具有规律性和理据性,不能由其他知识推知,而只能靠记忆的方式来处理。词库中的项目都是语言中意义不可预测(unpredictable)的成分,具有不规则性,表现出形式与意义之间的任意性或非常规的联系,所以需要以清单方式一个一个地存储,需要时就可以直接从这个清单中提取。词库的主体是词,但也可能包括大于词的习语和小于词的语素(对于词库中所包括的内容,不同的学者有不同的看法,对此我们在后文有进一步的讨论),因为这些也是需要记忆的词汇性的成分。
词库中的成员在特异性上有不同的程度。单一的语素或由一个语素构成的单纯词具有完全的特异性,因为按照索绪尔的观点,单个语言符号的形式和意义之间的联系具有任意性(arbitrary)。一些合成词和习语虽然包括不止一个语言符号,但也具有一定特异性。这种特异性可以表现在语音上,也可以表现在语义上。比如,women(女人们)作为复数,其中元音o的发音与单数形式woman(女人)中的发音不同,因此women在语音上具有一定特异性;当整体的意义不能完全由组成成分的意义和组合规则推知的时候,语义上就有一定的特异性,比如成语“胸有成竹”的含义就不能通过组成成分的意义的加合而得出。特异性的存在是收入词库的前提。
按照一个广为接受的观点,词法是关于一个语言中可以接受或可能出现的复杂的词的内部结构的知识(Aronoff 1976,1982等),或者说是生成语言中可能的词的规则。词法是一套规则系统,可以说,规则性既可以存在于句法之中,也可以存在于词法之中(注意,词法的规则性与句法的规则性有差异,这一点在后文还会谈到)。
很多词之间是有部分相似因而相互关联的,复杂的词中可能包含简单的词,如working与work有关系,前者在形式上包含后者,是在后者的基础上通过一个加后缀-ing的词法手段生成的。语言中这些内部结构清晰的词可能不是以清单的方式储存在心理词库中,而是在遇到这个词时动用词库中存储的成分以及词法中的规则来对其加以理解,在要对其加以使用时,也是根据词库中的材料和词法规则临时合成,理解和使用完毕之后,就将其放弃,而不是将其整体存放在词库中[11]。可以说,这类内部结构清晰的词是在线(on-line)理解和生成的。
注意,不在词库中存储的成分并不等于不是词,只是不需要以清单方式存储而已。比如,由一些能产性极强的词缀构成的派生词就不在词库中存储,但这并不意味着这些派生词不是词。如汉语中的“第”与数词可以构成序数词(郭良夫(1983)就将“第”定性为前缀),“第+基数词→序数词”这样的一个词法规则具有周遍性,所有的基数词前都可以加“第”构成序数词,因此词典无需也不可能全部收录所有的“第”与基数词组成的组合,只要给出“第”作为词缀的意义及用法就可以了,但并不能据此认为“第+基数词”不是词,因为按照“第+基数词”在句法中的使用情况,它完全符合词的“句中最小的自由使用的单位”的定义,是词无疑。Di Sciullo&Williams(1987)将需要列入词库中的词称为“词汇词”(lexical word),而将由词法规则生成的词称为“词法词”(morphologi-cal word),本书认为这种区分是很重要的。
词法具有能产性,在这一点上与句法相似,而与词库有别。正因如此,在传统的语法研究中,词法总是与句法一起算做语法研究的对象。词法的能产性造成的是词,句法的能产性造成的是短语和句子。正是因为词法具有能产性,所以语言中才可以不断出现新的词,而语言使用者也可以像理解新的句子一样可以理解原则上是无限的可能出现的潜在的词。新的词,虽然其具体形式以前没有在语言中存在过,但其构成规则却是语言中现存的,属于语言使用者头脑中词法知识的一部分,所以语言使用者对新词的理解不会产生太多困难。当代词法学理论认为,正如句法研究的目标不是语言中实际出现的所有句子的集合,而是可以造出语言中潜在的合法句子的规则,词法研究的目标也不是语言中现实的词的集合,而是语言中可能的词,即研究合法的词的生成规则。
但是一个语言中的词法所允许的可能的词能否成为该语言中实际出现的词,这却是一个具有词汇性的问题(lexical issue)(Anderson 1992),即不是由明确的规则来控制的,而是具有一定的特异性。本书第四章的研究将揭示制约可能的词成为现实的词的一些社会文化和认知因素。
词法作为一个规则系统,有别于句法,它作用于词汇层面,而不作用于句子层面。从Chomsky(1970)论“名词化”(nominalization)的观点发表以来,生成语法学派的研究者较为普遍地接受了严格区分句法与词汇两个层面的处理方式。由于词库和词法都为语言使用提供词,在一些词法研究者的处理中,词法是放在词库中的(Jensen&Stong-Jensen 1984,Ander-son 1992等),以与句法层面相区分。这样词库就包括了两部分:一部分是具有特异性的词汇单位的清单,另一部分是构词规则(word formation rules)[12]。这样词库就是在一系列规则控制下的语言知识(Anderson 1992)。这样处理的好处是凸显了词汇与句法的区别,但是就只针对词汇部分的研究而言,可以采取另外的处理方式。
需要指明的是,本书所使用的“词库”概念专指词汇单位的清单这一部分内容,而将词法与词库并列。我们同意将词法作为一个独立的模块的观点(Matthews 1974,Anderson 1992等),作为一个规则系统,词法不宜并入作为单位集合的词库。其实,在词法学以往的研究中,列出的词汇清单部分与词法规则部分也是分别进行探讨的。在我们的体系中,词汇知识作为一个上位概念,涵盖词库和词法,词库和词法是在词汇知识下的两个独立的但相互联系的模块。
严格来讲,词法和词库的区分是基于个体语言使用者的,而不是基于由人编辑而成的词典(Aronoff&Anshen 1998,徐国庆1999)。如果一个词对于某个特定的语言使用者来说,其中有一个组成部分的意义不明确或组成成分之间的关系不可理解,这个语言使用者就可能把这个词以整体的形式贮存在他/她的心理词库中,以便下次可以使用。但可能这同一个词对于另外一个语言使用者来说,其内部形式是可以分析的(比如因为这个语言使用者掌握更多的词的历史知识),因而不把它贮存在心理词库中,而是通过词法来处理。所以词法和词库的区分是存在着语言使用者的个体差异的(Di Sciullo&Williams 1987)。但是为了研究方便起见,我们可以把一般词典收录的条目看做是可能进入大多数人的心理词库的形式[13],而把一般词典未收录的条目看做不需要进入大多数人的心理词库的形式。我们在后文的分析中就是采用了这样的策略。
词库是一个单位库,是一些词汇基本单位的集合;词法则类似于运算系统,借以将词库中的基本成员组合起来生成复杂的词汇单位。词库和词法虽然处理的领域不同,但二者是有关联的。二者的相互作用表现在以下几个方面(Aronoff&Anshen 1998):
(1)阻断效应(blocking effect)。在词法学中阻断效应指的是这样一种现象:一个形式的不出现是由于有另一个形式的先期存在(Aronoff 1976)。比如英语中不存在由名词化后缀加形容词词根构成的派生名词*gloriosity,这是因为英语中已经有了表达这一意义的单纯词glory;不存在动词过去式形式*goed,是因为有不规则的词形went存在;不存在名词复数形式*womans,是因为有women存在;不存在副词*goodly,是因为有well存在;等等[14]。如果不承认词库和词法之间存在联系,就很难解释阻断效应的存在。语言学家也观察到这样的现象:儿童在习得语言时,经常出现过度概括的错误,当儿童在没有掌握不规则形式went之前,会在话语中使用*goed这一不合法的形式,当他们掌握了went之后,就放弃了*goed。第二语言习得者也会犯类似错误,即用一个按词法规则生成的形式来代替一个词库中的成员,这样的错误也可以在进一步的学习中得到纠正。这些现象似乎表明了这样一个心理过程:人们在表达一个意思时好像是先检查词库中有没有现成的词,如果没有,才动用词法规则。如果有现成的词,词法规则就不会被启用[15]。这就是说,词库里的形式相对于由词法生成的形式来说具有优先性[16]。词库里的形式对语言使用者来说越熟悉,使用频率越高,阻断效应越可能发生。这可以由处理速度得到解释。对合适的词的检索就好像是在词库与词法之间的一场竞赛,谁的速度快,谁胜出。频率越高,处理速度越快,越容易被提取。
(2)由词法在线生成的词可能由于历史发展而变为词库里的成员。一些由词法规则生成的本不用在词库中储存的词,由于构成这些词的词法规则在语言发展过程中变得模糊,这些词的内部形式也随之模糊化了,最后变得完全不透明,不可分析,结果这些词就进入了词库。对于汉语史的研究也揭示了这种变化(董秀芳2011/2002)。这一事实表明词法可以和词库相通,词法的规则形式可以在发展中变成不具有可分析性的特异单位从而进入词库[17]。
(3)由词法过程所生成的复杂的词可以在一定程度上继承作为其构成基础的词库成员的不规则性。词法规则是作用于词库中已有的成分上的,因而词库成员的不规则性有可能通过参与词法过程而在由其生成的复杂的词中留下一些痕迹。比如,虽然派生词的内部形式大部分是透明的,其意义在一定程度上具有可预测性,但是派生词的意义有时也会继承词根作为词库单位的特殊性,因而也不是完全可以推断出来的。如英语中的natural-ize是由形容词natural(自然的,天然的)通过加后缀-ize动词化构成的,但是这个词的意义并不能简单地解释为是natural的动词形式,其实际意义指的是“使顺化;使归化;入国籍”,这一意义与natural的意义的联系不太容易预测。实际上由后缀-ize构成的其他一些词,在意义上也不太统一,不是完全有规则的,如winterize义为prepare(something)for winter(为冬天作准备);hospitalize义为put(someone)into a hospital(把某人送进医院);vaporize义为(cause to)become vapor(导致变为蒸汽)。汉语的“头子”是“头”加名词后缀“子”形成的,指的是“首领(多含贬义)”,在意义上具有一定不透明性,不可以完全预测。这表明由词法规则生成的一些词也可能具有一定的词汇特异性,不是完全规则的。词法的规则性与句法的规则性的差异由此可见一斑:词法规则是有弹性的,允许空缺(gap)和特异性的存在;而句法规则更为硬性(rigid),其运用具有更强的周遍性,不太会存在空缺,在语义解释上也具有较强的一致性,所允许的变异极小(参看Chomsky 1970等)。
(4)在某一具体语言中,有些同类的词可以一部分来自词法,一部分来自词库。如英语中的复数,大部分都是规则的,是来自词法,如dogs,是由名词dog加复数后缀-s构成的;也有一部分是不规则的,如women、sheep、oxen等[18],是来自词库。英语序数词中“第一”“第二”“第三”以及个位数是一、二、三的词由特殊的词汇形式来表示(first、second、third或基数词与first、second、third的复合形式,如twenty-first),这些属于词库中的成员(复合形式也可以不入词库);而其他序数词用在基数词后加后缀-th来表示,属于由词法生成的形式。来自词法的部分可以根据规则生成,而来自词库的部分则是有标记的,需要专门记忆。来自词法和词库的词可以在同一范畴(如名词复数、序数词)中共现,这就说明二者在语言使用者的词汇知识中是相互联系着的。
由于词库和词法彼此联系,所以研究词法不能脱离词库,揭示词库的构成与特性也不能脱离词法。