中国语料库研究的历史与现状Word文件下载.docx
- 文档编号:14523190
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:19
- 大小:40.46KB
中国语料库研究的历史与现状Word文件下载.docx
《中国语料库研究的历史与现状Word文件下载.docx》由会员分享,可在线阅读,更多相关《中国语料库研究的历史与现状Word文件下载.docx(19页珍藏版)》请在冰豆网上搜索。
1.
国外语料库概况
现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。
他们设计了基于规则的自动标注系统TAGGIT来给布朗语料库的100万词的语料作自动标注,正确率为77%.他们还设计了CLAWS系统来给LOB语料库的100万词的语料作自动标注,根据统计信息来建立算法,自动标注正确率达96%,比基于规则的TAGGIT系统提高了将近20%.最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到99.5%。
这个指标已经超过了人工标注所能达到的最高正确率。
现在,国外的主要语料库还有:
London-Lund口语语料库:
收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodicmarking)。
AHI语料库:
美国Heritage出版社为编纂Heritage词典而建立,有400万词。
OTA牛津文本档案库(OxfordTextArchive):
英国牛津大学计算中心建立,有10亿字节。
BNC英国国家语料库(BritishNationalCorpus):
1995年正式发布,使用TEI编码(TextEncodingInitiative)和SGML通用标准置标语言的国际标准(TheStandardGeneralizedMarkupLanguage,ISO8879,1986年公布)。
ACL/DCI美国计算语言学学会数据采集计划:
美国计算语言学学会(TheassociationforComputationalLinguistics,ACL)倡议的数据采集计划(DataCollectionInitiative,DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。
LDC语言数据联合会(LinguisticdataConsortium):
设在美国宾州大学,实行会员制,有163个语料库(包括Text的以及speech的),共享语言资源。
RWC日语语料库:
日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文语料,语素标注量达1亿条。
亚洲各语种对译作文语料库:
日本国立国语研究所研制,中野洋主持,北京外国语大学参加。
为了推进语料库研究的发展,欧洲成立了TELRI和ELRA等专门学会。
TELRI是跨欧洲语言资源基础建设学会(Trans-EuropeanLanguageResourcesInfrastructure)的首字母缩写,JohnSinclair担任主席,由欧洲共同体提供经费,其目的在于建立欧洲诸语言的语料库,现已经建成柏拉图(Plato)的《理想国》(Politeia)多语语料库,建立了计算工具和资源的研究文档TRACTOR(ResearchArchiveofComputationalToolsandResources),正在语料库的基础上建立欧洲语言词库EUROVOCA。
TELRI每年召开一次Seminar。
最近的一次Seminar在Lubljana,(Slovenia)召开(22.September–26.September.2000),主题是从语料库中自动抽取知识(Automaticknowledgeextraction)。
ELRA是欧洲语言资源学会(EuropeanLanguageResourcesAssociationi)的首字母缩写,由Zampolli担任主席,ELRA负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。
ELRA建立了欧洲语言资源分布服务处ELDA(EuropeanLanguageresourcesDistributionAgency),负责研制并推行ELRA的战略和计划。
ELRA还组织语言资源和评价国际会议LREC(LanguageResources&
EvaluationCongress),每两年一次。
第一次会议于1998年在西班牙的Grenade举行;
第二次会议在Athens(Greece)召开(31.May–02.June.2000),第三次会议于2002年在西班牙的LasPalmasdeGranCanaria召开(27.May–02.June2002)。
2.
我国语料库的发展概况
2.1早期的汉语语料库
2.1.1我国语料库研究的先河
在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。
当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河,在我国语料库的发展史上是功不可没功的。
著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版,陈书前有“绪论”,说明“中文应用字汇”曾有多种,其中包括P.克仑茨(PastorP.Kronz)的研究和他自己的编写的《常用四千字表》。
陈鹤琴做过两次统计,第一次统计使用了六种材料,包含554,478个汉字的语料,得不同汉字4261个;
第二次使用包含34,818个汉字的语料,得出与4261个汉字相异的汉字458个。
第二次统计所得的成果毁于战火,在《语体文应用字汇》中印出的只是第一次统计的结果。
陈鹤琴用的语料分如下六类:
1.儿童用书:
127,293字;
2.报刊(以通俗报刊为主):
153,344字;
3.妇女杂志:
90,142字;
4.小学生课外作品:
51,807字;
5.古今小说:
71,267字;
6.杂类:
60,625字。
书末附有“字数次数对照表”,这是按汉字在语料中出现的绝对频率排列的字表。
我国著名教育家陶行知先生为《语体文应用字汇》写了序言。
序言中说:
“他们(指“近代教育家”)对于一门一门的功课,甚至一篇文章,一个算题,一项运动,都要依据目标去问他们的效用。
他们的主张是要所学的,即是所用的。
......到了后来他们连学生学的字也要审查起来了。
学生现在所学的字,个个字都是有用的字吗?
自从这个问题发生就有好几位学者开始研究应用字汇。
我国方面也有几位先生研究这个问题,其中以陈鹤琴先生的研究最有系统。
他和他的助理九人先后费了二三年工夫,检查了几十万字的语体文,编成这本《语体文应用字汇》。
这册报告未付印以前已经做了《平民千子课》用字的根据。
将来小学课本用字当然也可以拿他来做一个很好的根据。
虽然不能十分完备,但我想这本字汇对于成人及国民教育一定是有很大的贡献的。
”(见陈鹤琴《语体文应用字汇》,商务印书馆,1928年)。
2.1.2早期的机器可读语料库
从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:
汉语现代文学作品语料库(1979年),527万字,武汉大学。
现代汉语语料库(1983年),2000万字,北京航天航空大学。
中学语文教材语料库(1983年),106万8千字,北京师范大学。
现代汉语词频统计语料库(1983年),182万字,北京语言学院。
我们以北京语言学院的汉语词频统计语料库来说明早期语料库的情况。
1979年,北京语言学院(现在改名为“北京语言文化大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。
这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。
他们选取的语料可以分为如下四类:
1.报刊政论:
44万字,占语料总量的24.4%。
2.科技和科普文章:
29万字,占语料总量的19.8%。
3.口语材料:
20万字,占语料总量的11.1%。
4.文学作品:
89万字,占语料总量的48.7%。
整个语料共182万字。
这样容量的语料,在当时已经是比较大的语料库了。
根据数理统计的原理,所统计的语料的总体个数必须达到一定足够的数量,才能保证统计结果符合客观实际。
《现代汉语频率词典》的编者认为,如果常用词的出现频率不低于百万分之一,也就是在一百万次的场合,常用词的出现机会至少应该有一次,就可以保证统计结果的客观性。
《现代汉语频率词典》实际上统计了182万个汉字的语料,因此,其抽样是合理的、经济的、适度的。
但是,国外在1971年进行英语词频统计时,所用语料量有5,088,721个词,包含不同单词86,741个,统计规模比《现代汉语频率词典》大得多。
由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。
与当前语料库的容量比较起来,《现代汉语频率词典》所依据的语料规模是小了一些。
不过,尽管这样,《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。
这次词频统计得出了如下词表:
1.按字母音序排列的频率词表:
共列出常用词16,593个,按音序排列,从中可以看出:
汉语中以Z、S、J、Y开头的词较多:
以Z开头的词有1457个,占8.78%;
以S开头的词有1327个,占7.99%;
以J开头的词有1243个,占7.49%;
以Y开头的词有1205个,占7.26%。
汉语中以E、O开头的词很少:
以E开头的词只有64个,占0.38%;
以O开头的词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 语料库 研究 历史 现状