现代汉语语料库加工词语切分与词性标注规范与手册.docx
- 文档编号:4672800
- 上传时间:2022-12-07
- 格式:DOCX
- 页数:81
- 大小:94.53KB
现代汉语语料库加工词语切分与词性标注规范与手册.docx
《现代汉语语料库加工词语切分与词性标注规范与手册.docx》由会员分享,可在线阅读,更多相关《现代汉语语料库加工词语切分与词性标注规范与手册.docx(81页珍藏版)》请在冰豆网上搜索。
现代汉语语料库加工词语切分与词性标注规范与手册
现代汉语语料库加工
——词语切分与词性标注
规范与手册
俞士汶主编
北京大学计算语言学研究所
1999年4月
●现代汉语语料库加工规范——词语切分与词性标注
⒈前言…………………………………………………………1
⒉切分规范……………………………………………………3
⒊切分和标注相结合的规范…………………………………10
⒋标注规范……………………………………………………14
⒌后记…………………………………………………………19
●现代汉语语料库加工手册——词语切分与词性标注
⒈语料库加工的标记集及其说明……………………………20
⒉加工好的样例………………………………………………20
⒊若干个常用多类词的处理…………………………………24
⒋词语切分和词性标注中的典型错例及分析………………28
⒌准谓宾动词示例……………………………………………41
⒍机器自动加工的样例及后校正注意事项…………………42
⒎后记…………………………………………………………46
●附录:
⒈按代码的字母顺序排列的标记集…………………………47
⒉按名称的汉语拼音顺序排列的标记集……………………48
⒊参考文献……………………………………………………49
现代汉语语料库加工规范
——词语切分与词性标注
1999年3月版
北京大学计算语言学研究所
1999年3月14日
⒈前言
北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。
第一步是对原始语料进行切分和词性标注。
1994年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。
在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。
为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。
因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:
⑴词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)保持一致。
由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
⑵小标记集。
词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:
①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。
合计约40个左右。
⑶规范的多元性。
既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。
⑷词组(短语)本位汉语语法体系的指导作用。
汉语的词类与句法成分之间不存在简单的一一对应关系。
同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。
《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)。
在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。
同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。
当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也
为汉语词的概率语法属性描述作准备。
⑸为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。
⑹不是孤立使用本规范。
在使用本规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。
当现在的研究和将来的应用(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。
而经过切分和词性标注的语料库又可以验证和丰富词典中词语的属性,进而建立词的概率语法属性描述。
经过切分和词性标注的语料库同《现代汉语语法信息词典》结合,形成一个立体的语言知识库。
语料库的进一步深加工(树库,注音,义项标注等)也有了可靠的基础。
⑺人机互助的工作方式。
以本规范为基准,继续扩充自动加工软件的功能并提高其精度。
人工校对是必要的。
需要重视校对人员之间的切磋,要将对学术问题的不同见解统一到规范的制订与执行上。
开发机器辅助编辑和语料库管理软件,保证语料库加工的一致性。
本规范分为三个部分:
①切分规范
切分规范主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。
第2章中详细介绍对“分词规范”的补充与调整。
②切分和标注相结合的规范
在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。
因此,在本规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。
这部分内容主要集中在第3章中。
③标注规范
③-1一般词性标注
标注规范用以确定切分单位的标记。
以1999年2月份语法词典小组提供的7万词表为基本参照,其含义包括:
a.标记集以26个词类标记为基准,名动词、副动词、名形词、副形词和专有名词的标记是在动词代码v、形容词代码a、名词代码n后增加一个小写字母,语素标记是在语素代码g前面增加一个大写字母。
b.一个词若在语法词典中已属于某一个或若干个词类,人工标注(校对)时不要轻易增加词性。
如“训练”、“强调”在语法词典中只属于动词,标注时切勿仅根据其在当前句子的功能就将它们改为名词或副词,可以标注为名动词vn或副动词vd。
c.当语法词典给某个词确定的词性不对或不完备时,当然也要订正或补充。
这时应通知词典小组。
d.即使语法词典中的简称实际上指的是团体、机构、组织名称或地名,标注时仍标以j,而不要改为nt或ns。
e.“唐朝”、“宋代”等历史朝代名称虽然也是专名,因语法词典已作为时间词收入,标注时仍标以t,不改为nz。
第4章集中论述标注规范。
③-2专有名词标注
这里“专有名词”的含义有了拓展。
短语型的地名、团体机构名称及其他专有名称在词的切分基础上用ASCII码的方括号括起来,并在右方括号之后标以相应的ns、nt、nz,方括号不嵌套。
第2章与第3章都涉及这部分内容。
⒉切分规范
2.1基本概念
⑴切分单位
“分词单位”是中国国家标准“分词规范”中的一个基本概念。
它是指信息处理中使用的、具有确定的语义和语法功能的基本单位。
为了同“分词规范”衔接,这里仍沿用“分词单位”这个概念,不过术语改用“切分单位”,因为“分词”这个术语已在英语语法中长期使用,大家已经熟悉,而用同一个术语表达同一或邻近学科的多个概念容易引起混乱。
按照“分词规范”对“切分单位”的定义和解释,本切分规范中的“切分单位”主要是词,也包括了一部分结合紧密、使用稳定的词组。
在某些特殊情况下孤立的语素或非语素字也可能出现在切分序列中,如在动词的离合形式
出/v了/u一/m次/q差/Ng。
/w
中,“差/Ng”是名语素;又如在
鹧鸪/n的/u鹧/x有/v什么/r意思/n吗/y?
/w
中,“鹧/x”是非语素字。
从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位。
⑵词典词条
“词典词条”(或“词条”)指《现代汉语语法信息词典》中收录的那些词语。
1999年2月提供给本项工程使用的词条的总数约7万,这些词语都已归了类,即带有词性标记。
⑶切分单位和词条的关系
汉语中,词和词组的界限、成词语素和不成词语素的边界是模糊的。
本规范规定,凡收入语法信息词典的词条(包括:
词、词组、成语、习用语、简称乃至标点符号等)一般都是切分单位。
由于语法词典中的词条多达7万,对真实文本的覆盖率很高,因此可以保证绝大多数切分单位和语法词典的词条是一致的,但两者之间还是有差异的。
例如5个字以上的成语、习用语是切分单位,但未被收入现在的语法词典。
像“一百二十八”、“五分之三”、“百分之九”、“1998年”、“10月30日”这样的数词和时间词实际上是无限多的,语法词典不可能全收,只可能收少量的构成成分。
反过来,像“分之”、“百分之”作为助数词收入了语法词典,但它们并不是切分单位。
语法词典中包含的前接成分、后接成分、语素、非语素字不是切分单位,尽管当它们不能与前后成分组合时也会孤立地出现在切分序列中。
当处理大规模真实文本时,不可避免地会碰到未登录词。
第3章给出了一些合成词的构造规则。
根据这些规则自动生成的或经校对者确认的切分单位,如果结合稳定,使用频度较高,以后有可能补充到语法词典中。
2.2对分词规范的补充和调整
为醒目起见,以下用符号“*”标识那些补充的规定,用“Δ”标识那些调整的规定。
⑴人名:
nr
①汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。
张/nr仁伟/nr,欧阳/nr修/nr,阮/nr志雄/nr,朴/nr贞爱/nr
②姓名后的职务、职称或称呼要分开。
江/nr主席/n,小平/nr同志/n,江/nr总书记/n,
张/nr教授/n,王/nr部长/n,陈/nr老总/n,
李/nr大娘/n,刘/nr阿姨/n,龙/nr姑姑/n
③对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。
老张/nr,大李/nr,小郝/nr,郭老/nr,陈总/nr
④明显带排行的亲属称谓要切分开,分不清楚的则不切开。
三/m哥/n,大婶/n,大/a女儿/n,大哥/n,小弟/n,老爸/n
*⑤一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。
鲁迅/nr,茅盾/nr,巴金/nr,三毛/nr,琼瑶/nr,白桦/nr
⑥外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr。
克林顿/nr,叶利钦/nr,才旦卓玛/nr,小林多喜二/nr,北研二/nr,
华盛顿/nr,爱因斯坦/nr
Δ有些西方人的姓名中有小圆点,也不分开。
卡尔·马克思/nr
⑵地名:
ns
安徽/ns,深圳/ns,杭州/ns,拉萨/ns,哈尔滨/ns,呼和浩特/ns,
乌鲁木齐/ns,长江/ns,黄海/ns,太平洋/ns,泰山/ns,华山/ns,
亚洲/ns,海南岛/ns,太湖/ns,白洋淀/ns,俄罗斯/ns,哈萨克斯坦/ns,
彼得堡/ns,伏尔加格勒/ns
①国名不论长短,作为一个切分单位。
中国/ns,中华人民共和国/ns,日本国/ns,美利坚合众国/ns,美国/ns
Δ②地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。
四川省/ns,天津市/ns,景德镇市/ns,沙市市/ns,牡丹江市/ns,正定县/ns,海淀区/ns,通州区/ns,东升乡/ns,双桥镇/ns南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns,大阪府/ns,北海道/ns,长野县/ns,开封府/ns,宣城县/ns
Δ③地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,不过要将地名同行政区划名称用方括号括起来,并标以ns。
[芜湖/ns专区/n]ns,[宣城/ns地区/n]ns,[内蒙古/ns自治区/n]ns,
[宁夏/ns回族/nz自治区/n]ns,[深圳/ns特区/n]ns,
[厦门/ns经济/n特区/n]ns,[香港/ns特别/a行政区/n]ns,
[香港/ns特区/n]ns,[华盛顿/ns特区/n]ns,
[广西/ns环江/ns毛南族/nz自治县/n]ns,
[青海/ns果洛/ns藏族/nz自治州/n]ns
④地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分。
鸭绿江/ns,亚马逊河/ns,喜马拉雅山/ns,珠穆朗玛峰/ns,地中海/ns,大西洋/ns,洞庭湖/ns,塞普路斯岛/ns
Δ⑤地名后接的表示地形地貌的普通名词若有两个以上汉字,则应切开。
也要将地名同该普通名词用方括号括起来,并标以ns。
[台湾/ns海峡/n]ns,[华北/ns平原/n]ns,[帕米尔/ns高原/n]ns,[南沙/ns群岛/n]ns,[京东/ns大/a峡谷/n]ns[横断/b山脉/n]ns
⑥地名后有表示自然区划的一个字的普通名词,如“街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分。
中关村/ns,长安街/ns,学院路/ns,景德镇/ns,吴家堡/ns,
庞各庄/ns,三元里/ns,彼得堡/ns,北菜市巷/ns,
Δ⑦地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。
也要将地名同自然区划名词用方括号括起来,并标以ns。
[米市/ns大街/n]ns,[蒋家/nz胡同/n]ns,[陶然亭/ns公园/n]ns
⑧大小地名相连时的标注方式为:
北京市/ns海淀区/ns海淀镇/ns[南/f大街/n]ns[蒋家/nz胡同/n]ns24/m号/q
Δ⑶团体、机构、组织的专有名称:
nt
①团体、机构、组织的专有名称若作为名词登录在语法词典中,则直接标注为nt。
联合国/nt,中共中央/nt,国务院/nt,北京大学/nt
②大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人名等专名,不会登录在语法词典中,本规范规定先切分,再组合,加方括号标注为nt。
[中国/ns计算机/n学会/n]nt,[香港/ns钟表业/n总会/n]nt,
[烟台/ns大学/n]nt,[合肥/ns师范/n学院/n]nt,
[北京/ns图书馆/n]nt,[富士通/nz株式会社/n]nt,
[香山/ns植物园/n]nt,[安娜/nz美容院/n]nt,
[上海/ns手表/n厂/n]nt,[永和/nz烧饼铺/n]nt,
[北京/ns国安/nz队/n]nt,北京队/nt,雷锋班/nt
注:
“北京队”、“雷锋班”作为“词”,“厂”同“手表”切开,而“铺”同“烧饼”合在一起。
这皆符合双音节名词同后面的单音节名词或语素结合的一般规则。
见第4章。
③团体、机构、组织名称的专指性是必要的,孤立的“大学、学院、图书馆、植物园”等只标为n,不标为nt。
在一篇文章的开头,团体、机构、组织名称的专指性是明确的,后文往往使用简称。
当省略了专名,只剩下普通名词时,就不再标nt。
如采访浙江省委书记的报道,记者开始一定会写明“浙江省委”,这时加工成:
[浙江/ns省委/n]nt
后文引用省委书记的话时,尽管“省委”指的就是“浙江省委”,但只标注为:
省委/n
也就是说,本次加工只考虑局部的上下文,而不作远程相关的语义分析。
同样,“北京大学校长办公室”应加工为:
[北京大学/nt校长/n办公室/n]nt
若句子中只有“校长办公室”,前面没有“北京大学”,则只加工成:
校长/n办公室/n
尽管在给定的更大的上下文环境中,该“校长办公室”是专指的。
④尽管有③的规定,对于在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名,也标为nt。
联合国/nt,[国际/n贸易/n组织/n]nt,
国务院/nt,外交部/nt,财政部/nt,教育部/nt,国防部/nt,
[国家/n教育/vn委员会/n]nt,[信息/n产业/n部/n]nt,
[全国/n信息/n技术/n标准化/vn委员会/n]nt,
[全国/n总/b工会/n]nt,[全国/n人民/n代表/n大会/n]nt
美国的“国务院”,其他国家的“外交部、财政部、教育部”,必须在其所属国的国名之后出现时,才联合标注为nt。
[美国/ns国务院/n]nt,[法国/ns外交部/n]nt,[美/j国会/n]nt
日本有些政府机构名称很特别,无论是否出现在“日本”国名之后都标为nt。
[日本/ns外务省/nt]nt,[日/j通产省/nt]nt,[日本国/ns法务省/nt]nt,
通产省/nt
⑤前后相连有上下位关系的团体机构组织名称的处理方式如下:
[联合国/nt教科文/j组织/n]nt
[中国/ns银行/n北京/ns分行/n]nt
[河北省/ns正定县/ns西平乐乡/ns南化村/ns党支部/n]nt
[北京大学/nt昌平/ns分校/n]nt
[安徽/ns人大/j常委会/j办公室/n]nt
[北京大学/nt计算/vn语言学/n研究所/n]nt
当下位名称含有专名(如“北京/ns分行/n”、“南化村/ns党支部/n”、“昌平/ns分校/n”)时,也可脱离前面的上位名称单独标注为nt。
[中国/ns银行/n]nt[北京/ns分行/n]nt
河北省/ns正定县/ns西平乐乡/ns[南化村/ns党支部/n]nt
北京大学/nt[昌平/ns分校/n]nt
如果下位名称不含有专名,则必须同上位名称捆绑在一起标注。
⑥团体、机构、组织名称中用圆括号加注简称时的处理方法示例。
[宝山/ns钢铁/n(/w宝钢/j)/w总/b公司/n]nt
[宝山/ns钢铁/n总/b公司/n]nt(/w宝钢/j)/w
Δ⑷除人名、国名、地名、团体、机构、组织以外的其他专有名词都标以nz,具体规定如下。
①专有名称后接单音节的语素,如表示民族的“族”、表示语言的“语”,表示文字的“文”,则不切分,标注为nz。
满族/nz,俄罗斯族/nz,哈萨克族/nz,塞尔维亚族/nz,高山族/nz,
维吾尔语/nz,蒙古语/nz,汉语/nz,罗马利亚语/nz,捷克语/nz
中文/nz,英文/nz,西班牙文/nz,蒙文/nz,俄文/nz
②专有名称后接单音节的名词,如表示人种的“人”、表示奖项的“奖”,通常不切分,标以nz;也允许切分,分别标注。
满人/nz,哈萨克人/nz,诺贝尔奖/nz,茅盾奖/nz,
哈萨克/nz人/n,高山族/nz人/n,安徽/ns人/n
③包含专有名称(或简称)的交通线,标以nz;短语型的,使用方括号。
津浦路/nz,石太线/nz,[京/j九/j铁路/n]nz,
[京/j津/j高速/b公路/n]nz,[北京/ns-/w西雅图/ns航线/n]nz
④历史上重要事件、运动等专有名称一般是短语型的,按短语型专有名称处理,标以nz。
[卢沟桥/ns事件/n]nz,[西安/ns事变/n]nz,[五四/t运动/n]nz
[明治/nz维新/n]nz,[甲午/t战争/n]/nz
⑤专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则应切分。
欧洲/ns语言/n,法国/ns文学/n,西方/ns文化/n,
贝多芬/nr交响乐/n,雷锋/nr精神/n,
美国/ns方式/n,日本/ns料理/n,宋朝/t古董/n
也有人认为“主义”是后接成分,且其后常接另一个后接成分“者”,因此将“主义”同其前面的专有名称合在一起作为一个切分单位(参见:
3.2
(2)③之d)。
马克思主义/n,马克思列宁主义/n,杜鲁门主义/n,
马克思主义者/n,列宁主义者/n,社会主义者/n
⑥商标(包括专名及后接的“牌”、“型”等)是专指的,标以nz,但其后所接的商品仍标以普通名词n。
康师傅/nr方便面/n,中华牌/nz香烟/n,牡丹III型/nz电视机/n
联想/nz电脑/n,鳄鱼/nz衬衣/n,耐克/nz鞋/n
⑦以序号命名的名称一般不认为是专有名称。
2/m号/q国道/n,十一/m届/q三中全会/j
如果前面有专名,合起来作为短语型专名也是可以的。
[中国/ns101/m国道/n]nz,[中共/j十一/m届/q三中全会/j]nz
⑧书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不作为专有名词。
由于这些名字往往较长,名字本身按常规处理。
《/w宁波/ns日报/n》/w,《/w鲁迅/nr全集/n》/w,
中华/nz读书/vn报/n,杜甫/nr诗选/n,
《/w大众/n医学/n》/w,邓/nr小平/nr文选/n
少数收入词典的书名、报刊名等专有名称,则不切分。
红楼梦/nz,人民日报/nz,儒林外史/nz
⑨当有些专名无法分辨它们是人名还是地名或机构名时,暂标以nz。
[巴黎/ns贝尔希/nz体育馆/n]nt,
其中“贝尔希”只好暂标为nz。
⑩一般的命名活动常用引号表示,也不看作专有名称。
香港/ns举行/v“/w庆/Vg回归/v公益/n千万/m行/Vg”/w活动/vn
第三/m次/q横田/ns基地/n噪音/n诉讼/vn
食谱上的菜名等通常也是短语型的,若拆开了,意思差别甚远,则不切分,否则切分。
即使不切分,也不看作是专有名词。
宫保肉丁/n,木樨肉/n,松鼠鳜鱼/n,红烧肉/n,
鸡蛋/n汤/n,芝麻/n饼/n,鸡丝/n面/n
Δ⑸数词与数量词组
①基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为m。
一百二十三/m,120万/m,123.54/m,一个/m,
第一/m,第三十五/m,20%/m,三分之二/m,千分之三十/m
“几”和“零”属于基本的系数词(或位数词),因此包含“几”和“零”的基数、序数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代汉语 语料库 加工 词语 切分 词性 标注 规范 手册