现代汉语语法信息词典的收词原则.docx
- 文档编号:27843272
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:21
- 大小:34.29KB
现代汉语语法信息词典的收词原则.docx
《现代汉语语法信息词典的收词原则.docx》由会员分享,可在线阅读,更多相关《现代汉语语法信息词典的收词原则.docx(21页珍藏版)》请在冰豆网上搜索。
现代汉语语法信息词典的收词原则
《现代汉语语法信息词典》的收词原则
王惠
chswh@nus.edu.sg
关键词:
现代汉语、语法词典、收词原则
一.前言
《现代汉语语法信息词典》是一部供计算机分析与生成汉语句子而使用的机器词典。
词典计划收词6万左右,所收条目包括:
名词n,时间词t,处所词s,方位词f,数词m,量词q,区别词b,代词r,动词v,形容词a,状态词z,副词d,介词p,连词c,助词u,语气词y,象声词o,叹词e,前接成分h,后接成分k,成语i,简称略语j,习用语l,语素g,非语素字x,标点符号w等26类。
其中前18类是语言学界普遍认可的词,后8类只是借助这些术语对词典中所收的非词成分进行归类[1]。
为行文方便,本报告中将对词典中收录的这26类成分都统称为“词语”。
北京大学计算语言学研究所从1986年起就开始研制《现代汉语语法信息词典》。
该项研究先后纳入国家“七五”攻关项目和“八五”科技攻关项目《中文信息处理技术应用开发平台》[3]的总规划,并与国家自然科学基金项目“自然语言的计算理论”相配合。
经过七年的连续开发,目前,该研究已取得重要的阶段性成果,词典已初步完成了五万词的收录、归类及属性描述。
本报告就是在这些实际工作经验的基础上,详细介绍这部电子词典的收词原则。
二.收词原则
词典的收词原则依赖于其应用目标。
《现代汉语语法信息词典》(以下简称“电子词典”)是供计算机使用的,与供人使用的词典相比较,收词原则应有所区别;本词典又是一部面向中文信息处理各个领域的通用性词典,它不依赖于任何特定的语言处理模型及算法,因而,与一般依赖于某个具体处理系统的电子词典相比较,收词原则也有很大的区别。
下面从6个方面对这部电子词典的收词原则进行介绍:
1.规范原则
(1).符合国家标准《信息处理用现代汉语分词规范》的词语,都属于电子词典的收词范围。
根据该《信息处理用现代汉语分词规范》中对“分词单位”的定义:
“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。
它包括本规范的规则限定的词和词组”。
语言学中所定义的词:
“最小的能自由运用的语言单位,首先是电子词典的收录对象。
在目前已收录的五万余条词语中,词占95%以上,包括了全部的18个基本类。
对于其中的9个封闭类:
方位词、量词、代词、副词、介词、连词、助词、语气词、叹词等,电子词典尽可能全部收录。
而另外9个开放类,名词、时间词、处所词、动词、形容词、状态词、区别词、数词、象声词等,由于其数目众多,电子词典不可能都收录,而是还要进一步参照下面将要介绍的其它几个收词原则(如高频原则、稳定原则、词部件原则等)进行取舍。
除了18类基本词以外,符合《信息处理用现代汉语分词规范》的成语、习用语、缩略语3类比词大的语言成分也属于电子词典的收录范围。
这些固定短语大多数是由语素和词组合而成,其构成成分和格式都是在汉语的长期发展中形成的,不可随意切割,而且其意义也带有整体性。
在句子中所起的作用与词相当,是汉语词汇体系的重要成员。
如:
成语:
胸有成竹、走马观花、子虚乌有
固定短语习用语:
跑龙套、卖关子、总而言之
简称略语:
三好、人大
由于这3类固定短语数量也非常可观,电子词典对其处理策略与处理开放类的策略相同,只选收其中一部分使用频率高、稳定性强的。
(2).不符合分词规范的词语,原则上将不予收录。
这主要包括以下几种情况:
1).不是分词单位的词
实际文本中的数词千变万化,如:
“一、十一、一亿八千万、第六、五分之二、一千多、三十几、数万……”等等。
但根据分词规范,可以作分词单位的只有:
a.系数词“一、十、两、几”等
b.位数词“十、百、千、万、亿、兆”等
c.助数词“第、初、零、分之、多、数、约”等
d.数量词“若干、许多、不少、大量、少许”等
那么,除了这4组,其它数词都不是分词单位,因而也不属于电子词典的收录范围之内。
2).不是分词单位的短语成分,如:
a.
(一)般说(出其)不意热胀(冷缩)超低(空)(三)年来
之首最关并以应按
b.在讲话中写论文学不好科技发展时间就是生命
听说读写早来桌子上
c.联合国教科文组织国家标准局北京大学中国少年先锋队
其中a组可能在词频统计时这些字的组合出现频度较高,但它们不在合理的层次上,既不成词也不成短语,b组是自由短语,c组是组织、机构、单位的名称。
2.高频原则
现代汉语词语非常丰富,即使是严格符合《信息处理用现代汉语分词规范》的分词单位,也数不胜数。
因而,电子词典不可能见词就收。
为了做到收词量一定而词的覆盖面最大或词的覆盖面足够大而收词量最少,电子词典应在规范原则的基础上,遵守高频原则,尽可能多地选收那些使用频率高、适用面广的词语,尽量少收低频词。
词语频度主要是通过对大规模语料的统计、分析获得。
我们词语的频度,主要是参照电子工业部提供的“频度词表”(约4万词语)以及我们七五时选的五万词、北京语言学院编写的《现代汉语频率词典》等现有的9种词表、词典(详见附录)。
按照词频的从高到低,依次收录;频率过低的,原则上暂不收录。
3.稳定原则
语言是处于不断发展变化中的,有些词语在一定时期内使用频率很高,但过了一段时间之后,就不大使用了,甚至被淘汰;然而,也有相当一部分词语是很稳定的,具有长久的生命力。
因此,电子词典在选收词语时,不仅要遵守规范原则、高频原则,而且要遵守稳定原则。
尽可能多收录稳定性强的词语,如:
“我、你、人、山、水、跑、吃、好、坏、日、常、不、在、的、吗、吧、啊……”等;对那些只通行于过去某一段时期,而现在已较少使用的词语,即使统计频率较高,也一般不予收录,如:
“黑帮、士大夫、黑五类、臭老九、三线”等。
另外,对于当前较为流行的一些新词,如:
“大腕儿、款爷、打的、面的”等,由于尚未稳定下来,电子词典也不收录。
为了保证所收词语具有较强的稳定性,电子词典在收词时,不是首先从各种语料中进行切词,而是直接利用现有的9种有代表性的词表和词典作为词条来源(见附录〕。
具体工作时,若一个词语在各种词表或词典中出现的次数越多,则认为其稳定性越高,因而也就优先收录到电子词典中。
4.词部件原则
无论是词典开发者或使用者都希望收词完备,如何提高完备性?
有两种办法可供选择。
一是增加收词数目,如我国已有一部收词达30余万条的电子词典,但相对于汉语的词语来说,30万并不完备,却大大增加了词典存贮空间,使得一般微机难以承受,而且收词过多,也有副作用,增加分析的难度;二是收录尽可能多的“词部件”。
汉语中词语数目无限多,可是构成这些词语的基本部件却是有限的。
任何自由短语都可以拆为若干词和固定短语,词和固定短语都可以拆成若干个语素和更小的词。
因而,词典中若把这些基本的词部件(可以是语素、词或固定短语)收录进来,并辅之以对这些词部件的构词能力及其组合规则的描写,就可以让计算机运用这些知识去处理未定义词。
这样,电子词典的规模不仅不会过于庞大,而且还可以大大增加词典的容量。
语法信息词典正是采用第二种方法,着重收录可以作为“词部件”的基本构词成分、词和固定短语。
对于由这些词部件构成的上级语言单位,如派生词、复合词、重叠形式、自由短语等,尽可能少收,甚至不收。
具体做法如下:
(1).把构词能力强的比词小的“词部件”列入电子词典的收录范围。
《信息处理用现代汉语分词规范》中规定的“分词单位”只包括词和词组。
但实际文本中还时常会出现比词更小的单位,如:
a.买了一个磁化杯
b.新华社3日讯
c.我姓刘
d.“枇杷”的“枇”字不常见。
其中的“杯、讯、刘、枇”都不是词,但它们不仅在一定场合下单独出现,而且可以作为词部件,与其它成分结合,组成很多的词语,如:
“茶杯、酒杯、塑料杯、玻璃杯、杯子、杯底、杯盖、通讯、电讯、审讯、音讯、老刘、小刘、刘胡兰、刘先生、刘经理、枇杷、……”等等。
类似地,汉语还有一些可作切分标记的前接成分和后接成分,如“阿、老、子、头、们”等,也可以与其它成分结合构成众多的合成词。
如:
阿~:
阿爸、阿妈、阿妹、阿哥、阿婆、阿五、阿春
老~:
老虎、老鼠、老王
~子:
杯子、盖子、刀子、尺子、小辫子、胖子
~头:
老头、苦头、甜头
~们:
哥们、姐们、爷们
因此,一部实用的电子词典,除了收录符合《信息处理用现代汉语分词规范》的词和短语以外,还应把这些基本的词部件收录进来,尽管它们不是分词单位。
电子词典把以下4种比词小的单位也列入了收录范围:
1).前接成分:
阿、老、超、非、单、反、小、伪、过、无
2).后接成分:
子、儿、头、们、性、员、者、化、界、学、观、率(lv4)、家、器、长(zhang3)
3).语素:
齿、贝、芳、函、讯、澡、杯、冬、遥、失、驰、耽、丽、秀、忿、罕、恭、釜、赴、冠、丹、邢、刘
4).非语素字:
枇、杷、鸳、鸯、垃、圾、蝴、蝶、葡、萄
并对它们一一作了标注,设立专门的语法属性字段描述其构词规则。
目前,限于规模,电子词典只把国标GB2312-80中所出现的这4种单位收录了进来;超出此范围的,不可能收录。
(2).自由短语原则上不列入电子词典的收录范围。
在§2.1规范原则一节中,本文已从自由短语(包括机关、组织名称)不是分词单位角度,讲述了它们不属于电子词典的收词范围之内。
本节将着重从自由短语不是基本的“词部件”角度,再次明确这一点。
自由短语是词与词(或短语)在句子中组成的临时结构,不具有稳定性和整体性,因而不是词汇体系中的成员。
如名词“科技、国家、机关”和动词“发展、工作、睡觉”可以与不同的名词或动词组成很多的定中式偏正结构的自由短语。
如:
“科技进步、科技发展、科技成果、科技人员、科技鉴定、国家机关、国家标准、国家栋梁、机关人员、工作机关、发展中心、发展程度、工作人员、工作时间、睡觉时间、……”等等。
如果把这些自由短语都收录到电子词典中,不仅不符合国家分词规范,而且有可能把“名词+名词”、“名词+动词”、
“动词+名词”等形式的自由短语都收录进来。
这样的话,电子词典即使使用海存,也难以包容。
因此,电子词典对这些自由短语原则上均不予收录,而只收录组成自由短语的基本词,并另立语法属性字段描述其组合规则。
如电子词典中的实例:
字段名:
词语词类前名后名前动
记录号
1科技n可可否
2国家n可可否
3机关n可可可
4发展v可可否
5工作v(兼n)可可可
6睡觉v否可否
其中“前名”字段填“可”,表示该词语可以直接受其它名词修饰构成定中结构,如“亚洲国家、国家机关、科技发展”等;填“否”则表示不能受名词直接修饰,如“睡觉”。
“后名”字段填“可”,表示该词语可以直接修饰其它名词构成定中结构,如“科技人员、国家机关、发展中心、睡觉时间”等;填“否”则表示不能直接修饰名词。
“前动”字段填“可”表示该词语可以直接受动词修饰构成定中结构,如“研究工作、保密机关”等;填“否”则表示不能受动词直接修饰构成定中结构。
由此可见,有了这些基本词汇及其组合规则,计算机就可以处理千变万化的自由短语,而没有必要再将这些自由短语收录到电子词典中。
(3).重叠式词语的收录原则
汉语词语具有“AA、AAB、ABB、AABB、ABAB、A一A、A了A、A了一A”等多种重叠形式,如“看看、看了看、看一看、看了一看、看看书、亮晶晶、高高兴兴、高兴高兴”等。
《信息处理用现代汉语分词规范》中规定“AA、AABB、ABB”式是分词单位,而“AAB、ABAB、A一A、A了A、A了一A”不是分词单位。
电子词典不以形式决定是否收录,而是从构词角度看该重叠式词语是不是基本的词部件(即不可还原为更小的词),然后再作取舍。
具体做法如下:
1).首先把重叠式词语分为以下3类:
a.形式上像重叠式,没有基本式词语。
如:
悄悄、明明、亮晶晶、毛茸茸、蒙蒙亮、满满当当、慢慢悠悠
b.基本式和重叠式都能单用,但二者词性不同;如:
往(介词)~往往(副词)
暗(形容词)~暗暗(副词)
大方(形容词)~大大方方(状态词)
孤单(形容词)~孤单单(状态词)
热闹(形容词)~热闹热闹(动词)
c.基本式和重叠式都能单用,而且二者词性相同。
如:
看(动词)~看看(看一看/看了看/看了一看)(动词)
研究(动词)~研究研究(动词)
理发(动词)~理理发(动词)
方面(名词)~方方面面(名词)
许多(数词)~许许多多(数词)
2).不同类的重叠式词语采取不同的收录原则
a类可看作是用重叠语素的方法构成的新词,属于电子词典的收录范围。
当然,至于具体某个词收与不收,又取决于它的使用频度、稳定性等因素。
b类和c类重叠式都有对应的基本式,都是基本式按一定规则构成的派生形式。
但b类重叠式与基本式词性不同,尚属于构词法范畴,因而电子词典酌收了少量频率很高的这类重叠式词语,如:
“往往、暗暗、大大方方”等;而大量的非高频词则未收。
c类重叠式与基本式的词性及基本语义都相同,完全属于构形法的范畴,重叠的结果并没有产生新词,只是出现了同一个词的不同语法变体,因而电子词典原则上不予收录。
在此补充说明一点,b与c重叠式中尽管有的词没收,但是它的信息不会丢失。
如:
“安静”收了,它的重叠属性描述中填了“AABB”,即说明它有“安安静静”的用法。
5.语法义项原则
汉语中一个词语往往具有几个不同的意义。
意义之间没有联系的,称为同形词,如:
“一朵花”的“花”与“花钱”的“花”。
意义之间有联系的,称为多义词,如“一朵花”的“花”与“花纹”的“花”。
《现代汉语词典》把同形词作为不同的词语分别收录,而把多义词作为一个词语收录,然后再分义项逐条解释。
如“花”在《现代汉语词典》中分列为两个词语:
花1:
①.一朵花②.花纹:
白地蓝~儿
花2:
花费、花销
电子词典主要是描写汉语词语的语法属性,而不是解释词义的,因而,在对同形词、多义词的收录原则上与一般释义词典也有所不同。
具体原则是:
(1).同形词作为不同词语收录;
如:
“花”在电子词典有两个,一个是动词,一个是名词。
(2).多义词义项所属词类不同,作为不同词语收录;
如:
编辑①.对资料或现成的作品进行整理加工
②.做编辑工作的人
电子词典中收了2个“编辑”,一个是动词,一个是名词。
(3).多义词各义项所属词类相同,但语法功能区别较大,作为不同词语收录。
如:
保管①.保藏和管理:
她~图书
②.完全有把握;担保:
~你能学会
电子词典中收了2个“保管”,都是动词,但一个只能带体词性宾语,一个只能带谓词性宾语。
(4).多义词各义项所属词类及其它语法属性都相同或相近,只作为一个词语收录。
如:
前边所说的“一朵花”的“花”与“白地蓝花儿”的“花”,二者都是名词,都能受数量结构修饰,都具有名词的各种语法功能。
因而,电子词典中只把他们作为一个词语收录,即“花”(名词)。
(5).同一个义项,如果所属词类和语法功能存在较大的差异,则分开作为不同词语收录。
如“自动”在《现代汉语词典》中只有一个义项,但它既可以作副词(“自动控制水流量”),也可以作区别词(“自动步枪”),因而,电子词典中就收录了两个“自动”,一个是副词,一个是区别词。
通过前面所列举的5条具体原则,可以清楚地看到,电子词典把具有同一词形的同形词语,以及兼类词语、语法功能有较大差别的多义词,都看作不同的词语而列入收录范围。
这种作法的依据就是语法义项原则,即根据词语的词类及其它语法功能的异同,来建立相应的语法义项。
同一个词形具有几个语法义项,就作为几个词语收录。
根据这条原则,电子词典中所收录的词语都是与语法义项一一对应的,不同的词语对应着不同的语法义项。
从这个意义上说,电子词典中收录的词语数目,实际上是以语法义项为计数单位,而不是以词形为计数单位的。
下面,作为一个完整的实例,让我们来对比一下电子词典和《现代汉语词典》对“该”的收录情况:
A.《现代汉语词典》:
该1①.应当:
该走了。
②.应当是:
这一回该我了吧。
③.理应如此:
活该!
④.表示根据情理或经验推测必然或可能的结果:
天一凉,就该加衣服了。
该2欠:
该帐|该他两块钱。
该3指示词,指上文说过的人或事物(多用于公文):
该地交通便利
该4同“赅”。
B.电子词典:
词语词类备注
该v对应于A组的“该1①③④”
该v对应于A组的“该1②”
该v对应于A组的“该2”
该r对应于A组的“该3”
《现代汉语词典》的“该4”,因为频次太低而未收入电子词典。
6.实用原则
电子词典是为计算机处理现代汉语服务的,因而,具体收词时,还要充分考虑实际工作的需要。
具体原则是:
(1).以规范的现代汉语普通话词语为主,尽量少收古汉语词语、方言词语。
a.古汉语词语与现代汉语词语
电子词典主要收录现代汉语词语,如“朋友、发展、中青年、希望、温柔、大型”等。
对现在已不使用的历史词语、文言词语,如:
“御史、钦定、北邙、九宾、言之不预”等,不收。
但少数现代汉语(尤其是书面语)中仍常使用的文言词语,如“之、其、谓、勿、诸位、获悉”等,酌收。
b.方言词语与普通话词语
电子词典主要收录标准语(即普通话)词汇,对方言词汇一般不收录。
如:
收“玉米”,而不收“老玉米、苞米、棒子、包米、包谷”等;收“火柴”,而不收“洋火、亮子、自来火、取灯儿”等;收“小偷”,而不收“小偷儿、偷儿、贼娃子、毛贼、贼骨头、鼠摸、鼠贼仔”等。
但对于少数已进入普通话的方言词汇,如:
“瘪三(吴语)、蹩脚(吴语)、雪糕(粤语)、龙眼(闽语)、晓得(西南话)”等,电子词典仍酌情收录。
c.口语词语与书面词语
语言规律的研究应当重视口语语料。
不过,本电子词典主要是应用于书面文本的处理的,因此,即使只用于书面语的词语,为“秀丽、辉煌、灿烂、思索”仍属收录的范围。
相反的,口语中常用的词语,如“压根儿、瓷实、瞎忙乎”等,电子词典一般不收录,这些词语很可能是北京话而不是普通话。
(2).增补了少量使用频率特别高的自由短语
为了提高计算机的处理效率,对那些使用得很频繁的自由短语,电子词典也酌收了一部分,如“一个、一下子、一会儿、各种、百分之、全国、这种”等。
(3).5字以上词语暂不收录
前面说过,汉语中5字以上词语绝大部分是由词部件(一般是1~4个字)组合而来的,因而不属于本词典的收录范围。
但汉语中的确还有一小部分5字以上的词语不能拆为更小的词部件,这主要包括译词、外国地名、人名、国家名、熟语、格言、成语等。
如:
“阿尔巴尼亚、布宜诺斯艾利斯、戈尔巴乔夫、八九不离十、冰冻三尺非一日之寒”等。
但这些词语在大规模的语料中出现的几率非常低。
据语言学院编的《现代汉语频率词典》中的统计,词频最高的前9000词中,5字以上词语只有2个。
这也就是说,真正常用的5字以上的词语很少。
当然,对于一个实际的自然语言处理系统来说,补收一些五个字以上的词也是可以的。
(4).增补了中文标点符号
汉语文本中,除了各种语言成分及汉字以外,还有必不可少的标点符号。
它们是句子分析时可利用的重要标记,而且每种标点符号也有各自独特的语法意义。
因此,电子词典把中文标点符号也全部收录了,并一一进行有关的属性描写。
三.各类词语的具体收词原则
电子词典中所收录的26类词语中,问题较多的主要是名词、时间词、处所词、数词、区别词、动词、形容词、状态词、成语、习用语、简称略语等11个开放类。
下面依次对这11类词语的具体处理原则进行介绍:
(一).名词
1.单纯词(由一个语素构成的词)
1).单音节名词都是单纯词,数量有限,而且构词能力较强,应尽可能收录。
如:
电子词典中现已收录的拼音首字母为“y”的单音节名词有:
“牙、芽、烟、盐、眼、羊、腰、药、印、鹰、营、油、铀、釉、鱼、雨、云、韵”等。
2).双音节以上的单纯词,收录高频的。
如:
玻璃、蝴蝶、葡萄、鸳鸯、蜈蚣、傀儡、垃圾、沙发、逻辑、奥林匹克
2.附加式合成词(由“h+w|g”或“w|g+k”形式构成的词。
其中h表示前接成分,w表示词(word),g表示语素,k表示后接成分,“|”表示“或”的关系),只收录少数搭配固定的高频词。
如:
h+w:
阿爸阿姨老鹰老天小说小鬼
h+g:
阿婆老师老鼠小孩小子伪军
w+k:
省长科学家弹性学员统治者苦头物理学轰炸机加法器生产率
g+k:
厂长作家码头石头文学磁性叶子
对于“w|g+子|儿”的名词,有时后接成分“子|儿”可有可无,这时,就只收录没有“子|儿”的形式。
如“花儿、刀子”不收,但“花刀”收录。
有些必须带“子|儿”的,就作为附加式合成词收录,如“蚊子、嗓子、盖子、傻子、个儿、死心眼儿、小不点儿”等。
3.由“g+g/w+g/g+w”构成的复合名词,从宽收录。
如:
1).g+g
1+1:
状况堡垒波涛策略财政措施
2).w+g
1+1:
教授白色办法用具错误
2+1:
电视台办公室美术片目的地发展史保温杯编者按
3).g+w
1+1:
道路待遇壁虎物力
1+2:
绵白糖国内外
4.由“w+w”构成的复合名词,只收录少数搭配固定、词义具有整体性的词语。
如:
1+1:
大小纸张刺刀出口大局牛肉火车红灯红茶仇恨军团花朵
1+2:
大自然轻音乐逆命题涮羊肉
2+1:
出租车卫生球玻璃钢旅游鞋
2+2:
浪漫主义独生子女人造卫星新生事物组织关系三角函数
1+3:
正多边形总工程师正三角形
3+1:
共产党人
5.专有名词
1).收录常见的国家名、城市名、省名、洲名,以及少数自然地理名称。
如:
国家:
中国、英国、美国、德国、日本、越南
城市:
北京、北京市、香港、上海、巴黎、纽约
省:
安徽、浙江省、浙江、台湾省、台湾
洲:
亚洲、拉丁美洲、非洲、欧洲
自然地理:
黄山、泰山、北冰洋、太平洋、黄河
2).人名从严收录。
目前只收录了“毛泽东、雷锋”等极少数几个。
(二).时间词
1.时间词绝大部分都是双音节的,因而,对双音节的从宽收录。
如:
“白天、傍晚、春季、冬天、此后、此刻、从前、当代、过去、将来、年底、课间、事前”等。
2.一年中的十二个月、一个星期的七天全部收录。
如:
“正月、一月、二月、……、十一月、十二月、星期一、星期二、……、星期六、星期天、星期日”等。
3.朝代名、节日名,只收录高频的。
如:
“宋朝、唐朝、春节、元旦、国庆节、劳动节、端午
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代汉语 语法 信息 词典 收词 原则