现代汉语语义词典规范Word下载.docx
- 文档编号:19987816
- 上传时间:2023-01-13
- 格式:DOCX
- 页数:16
- 大小:64.55KB
现代汉语语义词典规范Word下载.docx
《现代汉语语义词典规范Word下载.docx》由会员分享,可在线阅读,更多相关《现代汉语语义词典规范Word下载.docx(16页珍藏版)》请在冰豆网上搜索。
现在语义词典SKCC的规模比原来增加了1.8万词语,达到了6.6万余条。
词典采用MicrosoftForxpro中文版6.0数据库实现,其中包含全部词语的总库1个,每类词语(实词)各建一库,计11个。
每个库文件都详细刻画了词语及其语义属性的二维关系。
比如,总库中包括词语、拼音、同形、义项、释义、语义类、词类、子类、兼类等8个属性字段。
名词库设15个属性字段,动词库设16个属性字段,如此等等(见表1)。
库名
词条
属性字段
名词
37522
15
时间词
567
处所词
185
方位词
204
代词
236
动词
21142
16
形容词
3827
区别词
753
状态词
997
副词
11
数词
109
总库
8
表1语义词典SKCC的规模
所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接。
这样,12个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,如图1。
2.2词语的语义分类
本词典语义分类的一个基本原则是,分类的深度与广度取决于语法分析的需要,应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。
因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。
具体分类如下:
(1)名词分类
1具体事物(entity)
1.1生物(organism)
1.1.1人(person)
1.1.1.1个人(individual)
1.1.1.1.1职业(profession):
教师秘书会计医生
1.1.1.1.2身份(identity):
华侨外行健将模范
1.1.1.1.3关系(relation):
父亲阿姨长辈朋友
1.1.1.2团体(group)
1.1.1.1.1机构(organization):
工厂医院商店剧团
1.1.1.1.2人群(society):
人民委员会少先队团伙
1.1.2动物(animal)
1.1.2.1兽(beast):
狗猪牛羊老虎豹子狐狸
1.1.2.2鸟(bird):
鸡鸭麻雀杜鹃
1.1.2.3鱼(fish):
鲤鱼河豚鲸泥鳅
1.1.2.4昆虫(insect):
蚯蚓知了蟑螂
1.1.2.5爬行动物(reptile):
青蛙乌龟甲鱼蛇
1.1.3植物(plant):
树花草牡丹芍药
1.1.3.1树(tree):
白杨水杉芭蕉
1.1.3.2草(grass):
狗尾巴草含羞草蒲公英
1.1.3.3花(flower):
牡丹芍药杜鹃映山红
1.1.3.4庄稼(crop):
蔬菜小麦高粱棉花
1.1.4微生物(microbe):
细菌病毒霉菌
1.2非生物(object)
1.2.1人工物(artifact)
1.2.1.1建筑物(building):
别墅礼堂会议室水库庙
1.2.1.2衣物(clothes):
服装外套衬衫裙子帽子
1.2.1.3食物(food):
面包牛奶菜米饭饮料
1.2.1.4药物(drug):
药片阿斯匹林酒精镇定剂
1.2.1.5创作物(works):
论文书杂志文章油画电影
1.2.1.6计算机软件(software):
操作系统数据库程序软件
1.2.1.7钱财(asset):
财产钱资金报酬罚款美元利息
1.2.1.9票据(bill):
发票单据汇票支票包裹单
1.2.1.10证书(certificate):
结婚证执照毕业证驾驶证
1.2.1.11符号(symbol):
签名路标箭头句号
1.2.1.12材料(material):
木材钢铁煤炭玻璃水泥
1.2.1.13器具(instrument)
1.2.1.13.1用具(tool):
剪子刀子钉子拖把改锥
1.2.1.13.2交通工具(vehicle):
车船飞机自行车
1.2.1.13.3武器(weapon):
大炮机关枪鱼雷
1.2.1.13.4家具(furniture):
桌子椅子沙发
1.2.1.13.5乐器(musical-instrument):
钢琴吉他鼓
1.2.1.13.6电器(electricity):
电视空调电冰箱
1.2.1.13.7文具(stationery):
钢笔橡皮尺子
1.2.1.13.8运动器械(sports-instrument):
足球单杠
1.2.2自然物(naturalobject)
1.2.2.1天体(celestialbody):
太阳月亮流星星星
1.2.2.2气象(weather):
云彩虹晚霞
1.2.2.3地理(geography)
1.2.2.3.1地表物(land):
原野沙漠山山洞陆地
1.2.2.3.2水域物(water):
江河湖海河流
1.1.2.2.4矿物(mineral):
煤矿原油铁矿
1.1.2.2.5元素(element):
金银铜铁
1.1.2.2.6基本物质(substance):
水土灰
1.2.3排泄物(excrement):
汗尿粪便奶水眼泪
1.2.4外形(shape):
粉末长方形圆窟窿孔洞泡
1.3构件(part)
1.3.1身体构件(body-part):
头脸鼻子嘴耳朵头发血液骨头
1.3.2非生物构件(object-part):
梁屋檐车闸车筐
2抽象事物(abstraction)
2.1属性(attribute)
2.1.1量化属性(measurable):
体积面积重量质量价格
2.1.2模糊属性
2.1.2.1人性(property_of_human):
胆量勇气脾气作风
2.1.2.2事性(description_of_event):
境况形势状态环节
2.1.2.3物性(property_of_object):
性能效用品种式样
2.1.3颜色(color):
黑色白色浅色素色
2.2信息(information):
话言语信件口信密码声明借口
2.3领域(field):
社会经济法律科学艺术
2.4法规(rule):
法律条约协议制度规章合同协议条文
2.5生理(physiological_state):
瘟疫疾病炎症艾滋病
2.5心理特征(psycholfeature)
2.5.1情感(feelings):
态度感情爱情
2.5.2意识(cognition):
意图幻想兴趣主意见解
2.6动机(motivation):
目的原因理由
3过程(process)
3.1事件(event):
学潮球赛晚会课早餐战争火灾
3.2自然现象(naturalphenomenon)
3.2.1可视现象(visiblephenomenon):
火电光风雨
3.2.2可听现象(audiblephenomenon):
声音雷鸣风暴
4时间(time)
4.1绝对时间(specifictime):
宋朝三国清代
4.2相对时间(relativetime):
昨天当代古代今天
5空间(space)
5.1处所(location):
浙江西湖黄山中国亚洲
5.2方位(direction):
东南前面之间途中高空
(2)形容词分类
1事性值:
紧急突然困难容易错误费时
2物性值
2.1量化属性值(measurablevalue):
2.1.1浓度(concentration):
浓稀薄
2.1.2温度(temperature):
热冷凉爽
2.1.3速度(speed):
快慢
2.1.4长度(length):
长短
2.1.5高度(height):
高矮低
2.1.6宽度(width):
宽窄
2.1.7深度(depth):
深浅
2.1.8厚度(thickness):
厚薄
2.1.9硬度(rigidity):
硬软
2.1.10湿度(humidity):
潮湿湿润干燥
2.1.11粗细(degreeoffinish):
粗细
2.1.12松紧(degreeoftightness):
松紧
2.1.13大小(size):
大中小
2.1.14价值(value):
贵便宜
2.2模糊属性值(unmeasurablevalue)
2.2.1视感(vision):
亮醒目清晰混浊
2.2.2触感(tactility):
紧松粗糙滑柔
2.2.3音质(tone):
响亮低沉刺耳
2.2.4味道(taste):
酸甜苦辣可口
2.2.5性质(quality):
新旧真假好坏强弱
2.2.6内容(content):
空洞晦涩清楚浅显
2.2.7外形(shape):
方圆尖
2.3颜色(color):
红黄蓝绿鲜艳
3人性值
3.1年龄(age):
年轻幼小老
3.2品格(character):
善良博学幼稚优雅
3.3关系(relation):
亲密疏远热情冷淡
3.4境况(condition):
繁忙贫穷危险疲劳
4空间值
4.1一维值:
远近
4.2二维值:
平斜弯
4.2三维值:
拥挤杂乱整齐满壮阔
5时间值:
古老久远短暂早晚
(3)动词分类
1静态关系(state):
是有等于包括
2心理活动(emotion/cognition):
喜欢尊敬反对同意怀疑思考判断
3动态行为(event)
3.1变化(change):
死病下降长高缩小变暗
3.2气象(weather):
下雨刮风打雷起雾
3.3身体活动(bodilycareandfunctions):
蹬跳推笑咳嗽游泳
3.4五官感觉(perception):
看见听到闻着品尝
3.5消耗(consumption):
吃喝饮
3.6位移(motion):
跑走散步飞过来回去拉来
3.7创造(creation):
制作画炒写创建修筑
3.8接触(contact):
触摸撞击打中系挖掘
3.9领属转移(possession):
买卖赠送给转让借
3.10信息交流(communication):
告诉询问请求转达叮嘱说
3.11比赛(competition):
竞赛赛跑打仗摔跤辩论
3.12社会活动(socialbehavior):
改革调价开会联欢
3.13其他行为(otherevent)
(4)副词分类
1程度(degree):
很挺太顶更最极十分非常稍稍微略微
2范围(range):
都也总共一共总共统统只就光仅仅仅
3时间(time):
正刚刚就先曾经已经终于立刻马上永远
4处所(location):
到处处处暗中当场当面
5频度(frequency):
常常常时常又再还重新重
6方式(manner):
渐渐逐渐挨次挨个逆时针慢慢
7否定(negation):
不没有没未莫休勿别
8语气(modality):
却可倒竟也就偏偏偏都简直索性幸亏难道到底究竟也许或许大约大概
(5)数词分类
1基数(cardinalnumber)
1.1系数:
一二两三五六七八九几
1.2位数:
十、百、千、万、亿、万万
1.3概数:
多半多少若干很多许多好多好几好些无数
2序数(ordinalnumber):
第一第二第十
3数量(amount):
一切许多很多不少大量部分全部所有俩
2.3词语的语义属性描写
分类法刻画事物固然简洁、清晰、反映了词语最基本的语义信息,但信息颗粒度较大,属于同一语义类的词语仍可能各具特点。
如:
表示“动态事件”的动词,其动作的发出者(主体)则可能完全不同,“唱戏”的主体是“人”,“产卵”的主体是“动物”,“抽穗”的主体是“植物”,“涨潮”的主体是“自然物”。
又如“害羞、繁茂、肥沃、甘甜”虽然都是“性质”类形容词,但其所能修饰的名词性成分也是不同的:
“害羞”用于指“人”,“繁茂”指“植物”,“肥沃”指“自然物”,“甘甜”指“可食物”。
因此,为了进一步提高机器翻译系统或其他自然语言处理系统的性能,语义词典还要在分类的基础上,依靠属性描述来刻画每一个词语与周围名词性成分所发生的语义组合关系。
3各类词库的共同字段
以下说明中,左边的一列楷体汉字代表字段名,中间的一列数字表示各个字段所占的字节数。
右边的词语则是对字段值的说明。
词语8暂收1-4个字的词语
同形2词典中同形词(即汉字相同的词)的情况是很复杂:
不同词条:
抄写的“抄”,抄近道的“抄”。
同类
同一词条的不同义项:
“去北京”的“去”,“去果皮”的“去”。
同音
不同类:
属连词的“和”与属介词的“和”是不同的词,动词的“锁”与名词的“锁”也是两个意义有联系的不同的词;
属广义兼类现象。
“同等”兼属区别词与副词,仅因同字为语法功能不同,两者的意义并无区别,这是狭义兼类现象。
同类:
和稀泥的“和”(huo4),和一盘棋的“和”(he2)。
表示加在一起的“合计”(he2ji4),有磋商、盘算意思的“合计”(he2ji5)。
不同音
属连词的“和”(he2),与属动词的和稀泥的“和”(huo4)。
在词典中,除了“同字同音同类”的情况外,上图中同形词的其他情况均作为不同记录收入词典。
为了进一步区分同字同音同类的情况,专设了一个“同形”字段。
对于同字、同音、同类但是应算不同词项的情况,在“同形”字段中填上字母A,B,C等。
对于同字、同音、同类、同一个词的不同义项的情况,在“同形”字段中填上数字1,2,3等。
为了提高同形词的处理效率,在“同形”字段中也用A,B,C等标识同字同类不同音的情况。
总之,“同形”中的A,B,C等表示不同的词,数字1,2,3等表示同一个词的不同义项。
当需要字母与数字并存时,则将字母置于数字之前,如A1,A2,B1,B2等。
拼音24填每个词语的汉语拼音,声调用“1,2,3,4,5”表示,其中“5”表示轻声。
“常识”的全拼音是“chang2shi2”,“尺子”的全拼音是“chi3zi5”。
词类2填词语所属词类的代码。
名词填“n”,动词填“v”,形容词填“a”。
子类2填词语所属词类的子类代码。
名词性成语填“IN”,动词性习用语填“LV”。
兼类4填该词语兼属的词类代码,如:
名词“锁”的兼类填“v”,动词“锁”的兼类填“n”。
义项编码 2 对“同形”字段相同的词条进一步加以区分,填上不同的义项编码,如“菜做得很清淡”中的“清淡”在本字段填“1”,“生意清淡”中的“清淡”则填“2”。
义项10填写该词语的简明释义,如:
词典中收录了两个“天才”,为了让人更为方便地将其区分开,就分别在本字段填上“人”和“智慧”。
即前一个“天才”指人,比如可以说“他是一位数学天才”,后一个“天才”指“智慧”,可以说“他在数学方面很有天才”。
语义类20填写该词语的语义类别名称。
意义明确的尽量填低层的小类;
意义难以把握的可酌情填上层语义类。
可以不止填一个类别名称,不同的名称之间用“/”隔开。
如“校长”填“身份”,“刀”填“用具”,“青菜”填“植物/食物”;
“是”填“静态关系”,“喜欢”填“心理活动”,“打雷”填“气象”。
WORD40填该词语对应的英语译词或短语,如:
“安静”在本字段填“quiet”,“脏乱”填“dirtyandmessy”。
Ecat40填该词语的英语译词的词性代码,或短语组成结构,如:
“安静”在本字段填“A”,“脏乱”则填“!
A+C+!
A”(!
表示中心词)。
备注20填写词语某些用法的简明示例或说明,用“~”代替该词,各示例之间用斜道“/”隔开。
注:
除了“语义类、义项编码、WORD、Ecat”4个字段外,上述其他字段均直接从北京大学计算语言学研究所的《现代汉语语法信息词典》中直接继承而来。
4名词库字段
(时间词、处所词,以及名词性的成语、习用语、简称略语等库
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代汉语 语义 词典 规范