面向应用的现代汉语语义构词研究
上QQ阅读APP看书,第一时间看更新

第三节 基于数据库的汉语语义构词法初探

一 汉语语义构词研究的总体思路

语素义与词义的关系一直是词汇语义学关心的理论问题,进入信息时代,其实际意义尤为重要。搞清楚语素(字)义经过整合转化为词义的规则,不仅对人(尤其是留学生)望文(字)生(词)义识读新词语具有重要的指导作用,而且是计算机语言信息处理当中未登录词语的识别以及语义理解的重要依据。随着信息时代的到来,现代汉语词汇迅速发展,“新词”激增,而“汉字”却未增,“这就证明了:汉语使用者既有用旧字造新词的创造能力,又有看旧字懂新词的领悟力”。“我国人工智能学者和语言学者要通力合作,让电脑模拟汉语使用者看旧字懂新词的智力。这就应促使‘汉语基因工程’上马,即把字符当作汉语的‘基因’,构建各级‘意序模式库’,阐明造字、造词和造句的‘意合规则’。”这样,计算机就可以利用这些规则去识别那些越来越多的未登录词语,同时“也有助于对外汉语教学,要教外国学生也像汉语使用者一样,有看旧字懂新词的领悟力和把新知识‘意译’为汉语时有用旧字造新词的创造力”[3]

如何研究由字义整合转化为词义的规律,即汉语语义构词规则?我们认为分三步走。第一步,按照一个统一的语义分类体系,分别建立现代汉语字、词的语义分类信息库,尽可能获得全面、系统的字、词的语义分布信息。第二步,在字、词语义分类信息库的基础上,通过统计比较说明字、词语义分布的实际情况以及二者之间的对应关系,为进一步进行语义构词规律的研究提供一个理论基础。第三步,进行语义构词规律的研究。选取一定数量的双音合成词,利用“汉字义类信息库”对构成双音合成词的每个字进行语义标注,建成大型的《汉语语义构词数据库》,在此基础上进行统计归纳,总结出由字义整合成词义的具体规律。前面两步工作已经完成,本节介绍的是第三步工作的一个初步结果。

二 《汉语语义构词数据库》的实现

以《同义词词林》为基础,结合《现代汉语词典》[4]《新词语大词典》[5]选取了52366个双音合成词,然后将《汉字义类信息库》的信息用计算机给这些合成词中的每个字标注义类标记和简单释义,经过人工校对,建成大型的《汉语语义构词数据库》。数据库中所用的语义类标记大类有:A人、B物、C时间与空间、D抽象事物、E特征、F动作、G心理活动、H活动、I现象与状态、J关联、K助语、L敬语[6]。数据库样例如下:

续表

三 字位在构词中的总体分布

经过对《汉语语义构词数据库》的统计,17430个字位中约有13972个字位在双音合成词中出现,占80.17%。这些字位对5万多个双音合成词的覆盖范围如下:

前100个字位是:子Kd06、大Ea03、人Aa01、不Ka18、心(心思)Df02、车Bo21、事Da01、水Bg01、军DI11、白Ec04、然Kd06、小Ea03、手Bk08、酒Br12、门Bn04、身(身体)Bk01、体(身体)Bk01、火Bg03、风Bf02、家(家庭、家族)DI05、电Bg04、女Eb35、长Ea01、头(名词后缀、方位词后缀)Kd06、内Cb05、眼Bk03、口Bk04、山Be04、出Hj64、地Bn12、田Bn12、草Bh03、民Aa01、无Ka18、书Dk20、道Bn11、路Bn11、儿(名词后缀,少数动词后缀)Kd06、春Ca19、鱼BI14、国DI02、房Bn01、船Bo22、金(金属)Bm01、开(开始、开拔)Ig01、分Hj30、场Cb28、红Ec01、兵Ae10、冷Eb26、文(文章)Dk19、老Eb36、音Bg07、物Ba01、意(意思)Df12、初Dn04、美Eb30、处(地方)Cb08、色Bg06、待HI07、数Dn03、话Dk11、光Bg03、力De04、自(自己)Aa05、刀Bo09、头Bk02、别(分离)Ie09、级(等级)DI16、病Dl01、情(感情)Df04、灯Bp01、衣Bq03、地(地面)Bn05、后(未来的)Ca12、油Br08、查Hc18、黄Ec01、加Ih05、江Be05、水Be05、大(程度深)Ka01、实Ed01、价Dj02、气(人的精神状态)De03、声Bg07、年Ca18、动Ih01、工(工人、工程)Ae02、称(名字、名称)Dd15、定(确定)Ie06、花Bh11、入Hj64、传Ie01、木Bm03、石Bm04、法(法律)DI25、死Ib03、评Hc20、天(天空)Cb07。

这些字位在构成5万多个双音合成词中出现的次数、数量与所占比例如下:

出现在双音合成词前面的字位有8931个,出现在后面的字位有10647个,前后两个位置上都有的字位有5606个,只出现在前面的有3325个,只出现在后面的有5041个。可见大部分字位在构词时位置是比较固定的。这也可以作为未登录词识别的一个有利条件。

四 字义与词义关系类型

经过对《汉语语义构词数据库》中5万多个合成词的意义与构成合成词的两个字位的意义之间的关系的考察,我们把字义与词义的关系归纳为以下八种类型(此处A、B代表构成合成词中的前后两个字位)。

(1)A+B=A=B (2)A+B=A (3)A+B=B (4)A+B=C

(5)A+B=A+B (6)A+B=A+B+D (7)A+B=A+D (8)A+B=D+B

第一种方式是指A、B是同义的,词义就是其中的一个字位义,例如“门户”“哄骗”;第二种方式是指词义只保留了字位A的意义,B的意义已经不存在了,即带有后缀的词以及一些偏义复词,如“人物”“质量”“稻子”;第三种方式是指词义是字位B的意义,而字位A已经不存在了,即带有前缀的词,如“阿哥”;第四种是指词义和字位义之间没有任何明显的联系,AB组合后产生了新的意义,词的引申义和比喻义也属于此类,如“爪牙、绿色(健康的、安全的)”;第五种是指词义是由A、B两个字位义相加而成,如“陪考”“绿色”。第六种是指词义包含了A、B两个字位义,但是又加上了其他的意义(D),主要包括改变词性、前一个字位义与后一个字位义有领属关系、某个字位改变词性、带有某种陪义,如“冷眼”“吉星”;第七种是指字位B的意义已经变成了其他意义(D),词义由A、D两个字位义构成,有的又加上了其他的意义,如“救星”“舅妈”;第八种是指字位A的意义已经变成其他意义(D),词义由D、B两个字位义构成,有的又加上了其他的意义,如“走运”。

各种类型包含的合成词的数量与所占比例如下:

在这八种类型中只有第四种(A+B=C)看不出字义与词义的关系,其他7种字义与词义都有明显的关系,第四种只占8.02%,而其他七种加起来占91.98%,数据表明,字义与词义有密切的关系,可以由字义推知词义。造成每类当中A、B两个字位与词义关系的具体情况,我们将进一步研究。

五 双音合成词语义构词的具体规则

通过对《汉语语义构词数据库》的分类、归纳、统计,从语义大类着眼,初步归纳了汉语双音合成词语义构词的具体规则,并将这些规则进一步归纳为四个大的类型。下列规则中“A、B、C、D、E、F、G、H、I、J、K、L”为语义类大类的标记,具体规则中“AB”表示双音合成词中前一个字位的语义类为A类、后一个字位的语义类为B类,其他类推。

(一)同类规则

构成双音合成词的两个字位属于同一个语义类,所构成的词的语义类与其基本相同。AA的词义100%为A类,BB的词义88.89%为B类,CC的词义83.82%为C类,DD的词义86.83%为D类,EE的词义84.98%为E类,FF的词义68.03%为F类,GG的词义84.5%为G类,HH的词义88.41%为H类,II的词义74.12%为I类,JJ的词义74.72%为J类,KK的词义82.08%为K类,LL的词义60%为L类。可见,除了II、JJ、LL三类外,其他类构成的词义与其同类的都在80%以上。属于同类构成的双音合成词共有17565个,占33.54%。

(二)后向型规则

构成双音合成词的两个字位属于不同的语义类,所构成的词的语义类与后一个字位的语义类相同。属于这一类的有(后面的数字为占该类的百分比):AB类63.63%,AC类60%,AD类63.46%,AH类49.49%,BC类60.73%,BD类69.84%,BH类65.84%,BI类51.23%,BJ类48%,CA类79.07%,CB类71.95%,CD类65.77%,CH类62.33%,CI类41.43%,DA类88.22%,DB类62.54%,DC类56.18%,DH类50.13%,EA类91.08%,EB类77.30%,EC类72.2%,ED类71.6%,EF类52.09%,EH类56.05%,FA类74.47%,FH类55.93%,HA类59.55%,HD类51.16%,HE类53.49%,IA类58.2%,IH类57.6%,JG类51.06%,KA类73.27%,KE类56.54%,KG类54.29%,KH类57.27%,KI类52.73%,LE类50%,LH类71.43%。可见,这些类构成的词的语义类50%以上的都与后一字位的语义类相同,多数在60%以上。与后一字位语义类不同的那些词语多数分布在很多类中,但也有个别的几个类比例高达20%。属于后向型规则构成的双音合成词共有18020个,占34.41%。后向型的语义重点落在双音合成词的后一个字位上,主要包括语法构词上的两种形式即偏正式结构和加前缀式。

(三)前向型规则

构成双音合成词的两个字位属于不同的语义类,所构成的词语义类与前一个字位的语义类相同。属于这一类的有(后面的数字为占该类的百分比):AE类59.15%,AF类75%,AG类56.25%,AK类87.5%,BA类86.25%,BK类85.46%,CK类72.38%,DK类65.68%,EK类47.23%,FJ类51.72%,FK类51.95%,GJ类50%,GK类54.46%,HF类60.22%,HG类53.97%,HJ类55.98%,HK类53.85%,HL类100%,IK类45.52%,JK类46.97%。可见,这些类构成的词的语义类50%以上属于前一个字位的语义类,个别类的百分比在50%以下,该类构成的其他词的语义类分布在比较多的类里,比例都很小。属于前向型构成的双音合成词共有1984个,占0.39%。前向型的语义重点落在双音合成词的前一个字位上,主要原因是后一个字位是意义比较虚灵的后缀或类后缀,整个词语的意义由前一个具有实在意义的字位决定。

(四)无向型规则

构成双音合成词的两个字位的语义类不同,所构成的词的语义类比较多,但其中有一些主要的类比例比较高。这些类有:AI类词义为A、D、I类的分别占31.81%、22.73%、18.18%,BE类词义为B、E类的分别占35.60%、43.69%,BG类词义为A、D、G类的分别占10.71%、25%、39.29%,CE类词义为A、C、E类的分别占13.64%、27.28%、32.95%,CF类词义为C、F、H类的分别占11.76%、35.29%、35.29%,CG类词义为D、G类的分别占21.43%、42.86%,CJ类词义为C、D、E类的分别占25%、16.67%、16.67%,DE类词义为A、D、E类的分别占13.21%、39.15%、36.79%,DF类词义为D、F、H类的分别占28%、20%、28%,DG类词义为D、G类的分别占42.59%、39.81%,DI类词义为D、I类分别占35.54%、40.50%,DJ类词义为D、J类的分别占35.71%、28.57%,EG类词义为E、G类的分别占36.75%、43.59%,EI类词义为E、I类的分别占30.75%、48.06%,EJ类词义为E、J类的分别占40.23%、27.59%,FB类词义为B、F、H类的分别占27.71%、33.19%、22.34%,FC类词义为C、D、F类的分别占32%、20%、20%,FD类词义为D、F、H的分别占34.25%、19.34%、24.86%,FE类词义为E、F类的分别占26.67%、56%,FG类词义为F、G类的分别占34.69%、30.61%,FI类词义为F、I类的分别占46.56%、37.02%,GA类词义为A、E、G的分别占48.21%、21.43%、19.64%,GB类词义为B、G类的分别占37.88%、27.27%,GD类词义为D、G类的分别占37.99%、32.52%,GE类词义为E、G类的分别占42.11%、41.35%,GF类词义为F、G类的分别占40.98%、27.87%,GH类词义为G、H类的分别占30.28%、46.79%,GI类词义为G、I类的分别占27.72%、49.5%,HB类词义为B、H类的分别占34.27%、47%,HC类词义为C、H类的分别占28.3%、44.74%,HI类词义为H、I类的分别占48.37%、33.1%,IB类词义为B、I类的分别占37.1%、30.67%,IC类词义为C、I类的分别占32.18%、33.17%,ID类词义为D、H、I类的分别占35.82%、20.28%、31.84%,IE类词义为E、I类的分别占38.01%、41.58%,IF类词义为F、I类的分别占31.3%、41.3%,IG类词义为G、I类的分别占39.73%、23.29%,IJ类词义为I、J类的分别占42.14%、26.43%,JA类词义为A、J类的分别占38.71%、24.73%,JB类词义为B、H、J类的分别占16.49%、22.34%、23.37%,JC类词义为C、J类的分别占38.6%、18.81%,JD类词义为D、H、I、J类的分别占25.09%、15.57%、15.93%、14.84%,JE类词义为E、I、J类的分别占35.39%、21.93%、15.73%,JH类词义为H、J类的分别占49.36%、24.04%,JI类词义为I、J类的分别占45.57%、30.77%,KB类词义为B、K类的分别占37.25%、16.34%,KC类词义为C、K类的分别占37.58%、22.93%,KD类词义为D、K的分别占40.11%、21.39%,KF类词义为F、H类的分别占44.26%、14.75%,KJ类词义为J、K类的分别占49.26%、24.40%。由此可见,这些规则构成词的词义所属的语义类的确比较多,既有前向的,也有后向的,还有其他的,但仔细比较我们列出的类及其数据,不难发现,尽管这些类中词的义类比较多,但都和构成该词的前后两个字位密切相关,即和前后两个字位同类的最多,将与前后两个字位同类的加起来多数都在60%以上,有的能够达到80%以上。从这一点看,我们可以将这一类概括为前后向的,其中有的稍偏前向、有的稍偏后向、有的干脆是对半。属于无向型构成的双音合成词有14797个,占28.27%。这一类具体规则最复杂,但构成的双音合成词相对较少。

六 汉语语义构词规则的特点

通过对具体规则的归纳统计,我们发现语义构词规则大致具有以下特点。

1.以上四个类型的规则覆盖范围不同,大致构成如下不等式:后向型规则>同类规则>无向型规则>前向规则,后向型规则比例最高。这四个类型的规则在分布上是互补的。

2.从这些具体规则,我们可以看到,尽管两个语义类的字位组合在一起构成的合成词语义类比较复杂,几乎每一种都可以构成多个语义类的词语,但我们也看到,其中数量最多的类还是和构成双音合成词的字位的语义类相同的语义类,即AA类全部为A类,AB类最多的是A类、B类,AD类最多的是A类、D类,等等。根据字位与词义的亲近度,四个类型的规则可以构成如下不等式:同类规则>后向型规则>前向规则>无向型规则。同类规则构成的词语义类和字位的语义类相同的最多。总之,四类规则共同的特点是词义都和前后两个字位有密切的关系,可以通过两个字位在一定程度上推出词的语义类,这个比例能够达到60%以上。

3.语义构词规则从理论上来说应该有144种,实际只有130种,其中14种没有。这130种按实际包含词语数量构成了下列不等式,括号中为合成词的数量。

BB(5004)>HH(3509)>EE(2609)>DD(2556)>EB(2530)>ED(2105)>HD(1979)>HB(1381)>BD(1041)>IB(1026)>II(966)>FB(912)>DB(842)>EA(822)>EH(794)>ID(770)>CC(719)>IH(711)>AA(670)>HI(578)>CB(573)>BK(572)>GG(560)>JD(539)>KH(470)>DA(469)>BC(466)>HE(453)>HA(446)>CD(444)>FF(442)>EI(437)>FH(395)>IE(390)>HJ(389)>DH(377)>KD(375)>HC(365)>DC(344)>GD(331)>BE(309)>AD(301)>JB(289)>KE(284)>HF(279)>JK(279)>EC(272)>EK(267)>KK(264)>FI(263)>EL(262)>JJ(261)>HK(258)>BH(243)>BA(240)>HG(239)>EG(234)>IF(229)>GH(215)>KJ(208)>DE(208)>IC(203)>BI(203)>EF(202)>KI(199)>FD(179)>JE(175)>EJ(174)>JI(167)>KG(167)>DK(159)>KC(158)>FK(155)>KB(153)>FE(151)>CH(144)>IJ(138)>IK(134)>GE(130)>IA(121)>DI(120)>DG(108)>GK(107)>KA(102)>JC(100)>AH(99)>AB(99)>GI(95)>JG(93)>JA(91)>FJ(88)>CA(86)>CE(86)>AK(80)>FC(74)>IG(72)>AE(71)>CI(67)>GJ(66)>KF(64)>GB(64)>GA(56)>DH(55)>GF(54)>AC(50)>FG(48)>FA(46)>JF(40)>BG(28)>BJ(25)>DF(25)>CJ(24)>AI(23)>GC(19)>CF(17)>AG(16)、AJ(16)>CG(14)>LK(6)>LL(5)>LE(4)、HL(4)、AF(4)>LD(3)>KL(2)、LG(2)>GL(1)、LJ(1)、IL(1)、LI(1)。

可见,BB、HH、EE、DD构词能力最强,构成的词最多。

4.每个义类的字位构词能力不尽相同,按照构词频率构成下列不等式,括号里的数字是频度。B物(21189)>H活动(17242)>D抽象事物(16025)>E特征(15685)>I现象与状态(7928)>K助语(5381)>C时间与空间(5281)>A人(4604)>F动作(4223)>J关联(3634)>G心理活动(3339)>L敬语(56),可见,这12类中,B物类构词能力最强,L敬语类构词能力最差。这个不等式序列和各类字位数量多少构成的不等式序列一致,说明每类构词能力的强弱决定于该类字位的多少。其更深层的原因是物体、活动是宇宙世界的主体,词汇是反映主客观世界的,由物体、活动产生的词汇占绝对多数。

5.每个义类字位在双音合成词前后两个位置上出现的多少也不相同。出现在双音合成词前一个位置上的义类根据频度构成下列不等式,括号里的数字是频度。E特征(10763)>H活动(9928)>B物(8267)>D抽象事物(5325)>I现象与状态(4788)>K助语(2808)>F动作(2750)>C心理活动(2296)>J关联(2176)>G心理活动(1735)>A人(1433)>L敬语(37)。这个不等式和前述4的不等式不同,E特征类由原来的第四位提前到第一位,这是因为汉语偏正式构词数量最多,E特征类往往充当偏正式构词中偏的成分,所以出现在双音合成词前一个位置上的较多。出现在双音合成词后一个位置上的义类根据频度构成下列不等式,括号里的数字是频度。B物(12916)>D抽象事物(10697)>H活动(7314)>E特征(4918)>A人(3167)>I现象与状态(3139)>C心理活动(2985)>K助语(2573)>F动作(1473)>J关联(1458)>G心理活动(1604)>L敬语(19)。这个不等式序列和前述4里各义类构词频度构成的不等式序列大体是一致的,和前一个位置上义类构成的不等式序列形成一个互补。B物、D抽象事物、H活动、E特征、A人在双音合成词后一个位置上出现的频率更高。这是我们从语义类上得出的结论。这个结论可以从注重形式的语法构词中得到验证。因为汉语构词中定中式偏正结构占53%以上、联合结构占27%以上、动宾结构占13%以上,这三种构词方式的总和在92%以上,而这些结构中处在后一个位置上的大多都是事物和人一类的,因为人和事物是宇宙世界的主体,其他都是由此而生发的,在词汇发展的过程中也遵循了以人和事物为中心附加其他属性而生成新词语的规则。

6.几乎每一条规则都可以构成属于A类(人)的词语,说明了多数字位都与人相关。


[1] 徐通锵:《语言论》第3编,东北师范大学出版社1997年版,第295—301页。

[2] 梅家驹等:《同义词词林》,上海辞书出版社1983年版,第5页。

[3] 鲁川:《汉语的根字和字族——面向知识处理的汉语基因工程》,《汉语学习》2003年第3期。

[4] 中国社会科学院语言所词典室编:《现代汉语词典(1996版)》,商务印书馆1996年版。

[5] 亢世勇主编:《新词语大词典》,上海辞书出版社2003年版。

[6] 语义类代码采用《同义词词林》的代码。