语料库与语料库建设Word格式.doc

资源ID：15526456 资源大小：66KB 全文页数：6页
资源格式： DOC 下载积分：15金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

语料库与语料库建设Word格式.doc

1、阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而

2、大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语

3、言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克

4、（R.Quirk）等人着手进行的“英语用法调查”（Survey of English Usage）通过系统的调查建立了第一个现代英语语料库，在此基础上完成的现代英语语法（A Grammar ofContemporary English）和英语语法大全（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。20世纪六十年代后，语言学研究主流从经验主义转向理性主义，乔姆斯基的语言能力说被广泛接受，转换生成语法学派批评语料库研究方法，认为，1、基于语

5、料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象，语料库收集的只是人们的语言运用，语言运用会因超语言因素的影响而发生变化，它并不能确切的反映语言能力。2、语料的不充分性。他们认为自然语言句子的数量是无限的，语料库的规模即使再大也无法穷尽所有可能的句子，因此“任何自然语料都是偏颇的”。在此后的长达20年的时间里理性主义在欧美一直占有统治地位，语料库研究一度陷入低谷。但在此期间仍有些语言学家凭着非凡的勇气继续不懈地从事语料库研究。最早的计算机语料库布朗语料库（Brown Corpus），1961年由纳尔逊（F. Nelson）和库切拉（H. Kucera）建立。布朗语料

6、库容量为100万词，收集了60年代有代表性的美国英语语料，语料选自各种出版物，建库时照顾到了各种文体的平衡，严格按照随机原则抽样，是一个标准语料库。布朗语料库是第一个现代语料库，它对于后来的语料库的发展具有重要的影响。1975年，Jan Svartvik开始创建伦敦隆德语料库（LondonLund Corpus），这两个语料库堪称现代语料库的开山鼻祖。20世纪80年代以来，在相对沉寂了近20年之后，语料库研究重新萌发了生机，迅速得到发展。语料库研究的迅速发展基于以下三个方面的原因：首先，具有语言学基础。在英国语言学研究中，实证主义从弗斯到韩礼德再到辛克莱一直被传承了下来，实证主义的基石是对可观

7、察的对象进行研究，作为人们外部行为的语言运用是可观察的、可靠的依据，而人们内在的语言能力是不可直接观察的，只能通过语用实例进行推断。语料库是在随机采样的基础上收集的有代表性的真实语言材料的集合，是语言运用的样本。如果样本具有代表性，采样具有随机性，且样本的量又足够大，则可以认为样本就是总体的真实代表；样本具有总体的统计特征，研究语料库中的语言材料即近似于研究语言本身。语料库中的语言材料都是人们实际使用的语言材料，因此语料库语言的研究结果具有可靠性和真实性。强大的技术支持是语料库迅速发展的又一原因。主要体现在以下三个方面：一、以计算机为主导的硬件技术的发展。PC机的兴起、计算机计算速度的高速增长

8、、存储介质的开发、存储容量的剧增都为计算机语料库的建设发展提供了技术保障。二、计算机网络的发展为语料库的发展和应用提供了有利条件。首先，大量的文献和文件具有电子文本形式在网上传播，为语料库语料的获得提供了便利条件；其次，大量语料库成为在线语料库，允许用户在网上实时使用；再者，研究者和用户能够在网上就语料库及时交流经验和看法。三、可以共享的语料库索引软件的开发。如今的索引软件大多已不是专为某一个语料库单独设计与开发的，而是能够应用于各种类型甚至不同语种的语料库。语料库迅速发展的第三个原因是需求的增长。在语料库的应用领域，不断增长的用户群体和不断扩大的应用领域进一步体现了语料库的应用价值。其应用包

9、括传统领域、扩展领域和新兴领域。传统领域包括自然语言处理、语法分析和辞典编纂等，扩展领域包括教材的组织编写、机器翻译、语言识别和语言对比；新兴领域包括语言教学、数据驱动语言学习、中间语对比分析研究、多媒体计算机辅助教学、在线语料库。在上述因素促动下，语料库建设迅速发展，相继出现了一批语料库，如，LOB语料库（Lancaster-Oslo-Bergen Corpus）、COBUILD语料库、国际英语语料库（The International Corpus of English，简称ICE）、赫尔辛基历史英语语料库（The Helsinki Corpus of Historical English

10、）及各不同语种、不同用途类型的语料库。三、语料库的建设与开发（一）总体设计首先语料库的建设目的要明确，建库的目的决定着语料的选取。如由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授等主持建设的中国学习者英语语料库（CLEC）建库目的是：1、通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系，为中国外语教学，尤其是英语写作教学，提供积极反馈；2、对学习者语料库与英语本族语语料库进行对比分析。语料库的规模设计。在规模上，只要条件允许，应该是语料库的规模越大越好。就语料库发展趋势来看，建立固定规模的语料库并非语料库发展的大趋势，因为语言本身是动态发展的，语料库也应当是动态的，可

11、以不断扩充的。语料库的内容。如果说规模是针对量的问题，那么，内容就是要解决质的问题。对于内容，最根本的是要真实，它包括两个方面，1、要收集实际使用中的文本，而不能是研究者杜撰的；2、要收集符合条件的文本。如要建立的是学习者语料库，要分析的是学生的真实语言能力，就不能把学生抄袭书本的东西收进来。（二）具体实施1、语料的搜集现代计算机技术和网络资源使得语料库语料的获得变得方便容易。传统的语料库建设，语料输入工作极为浩繁，基本上靠手工键盘输入和扫描输入，费时费力，且容易出现错误，需要校对。如今大量的在线语料资源、光盘资料、因特网资源，包括新闻、邮件列表、电子邮件等，使语料库的建设和扩充变得非常快捷方

12、便。当然，用于不同研究目的的语料库对其语料来源可能要求不同，会影响到语料的采集。2、抽样语料库在语料抽样范围和文类覆盖方面都要尽可能取得平衡，要考虑每一文类、体裁、语域、主题类型等的抽样比例。乔姆斯基曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料，其结果必然存在偏差，缺乏代表性。目前，计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差，增强语料的代表性。决定语料代表性的主要因素是样本的抽样过程和语料量的大小。语料库一般采用随机抽样方法。一种做法是在抽样前首先确定抽样的范围，再就是确定语料的分层结构，进行分层抽样，如把语料按文类（如小说、新闻报道、科学论文、法律文书、

13、诗歌、散文等）和信道（如书面语和口语）进行分层抽样。在抽取比例上可根据需要采用平均比例均衡抽样或不等比例的塔式抽样。3、语料库的加工文本输入计算机后，一般需要进行一些加工，主要包括语料的标识和语料的赋码。1）语料库的标识标识主要分两类：一类是对文本的性质和特征进行标识，另一类是对文本中的符号、格式等进行标识。如CLEC语料库标注了以下主要信息，包括学生类型、性别、累计学习年限、自然年龄、作文完成方式、是否是用词典、作文类型、所在学校、作文得分、作文标题、大学英语四、六级试卷作文编码。第一类标识是必要的，因为它们可以用来对文本进行必要的分类，为灵活提取文本进行各类目的研究提供便利，而且它们可以标

14、注在文本开头或者作为另一个文件保存，丝毫不破坏语料的完整性和原始性。至于第二类标识可以视研究和应用的目的而定。但不管怎样，保存一份未标识的原文本是很有必要的。2）赋码一些研究不需要赋码语料库，而有些研究需要赋码语料库。当前，语料库的赋码主要有两类：一类是词类码，又称语法码；另一类是句法码。词类赋码就是对文本中每一个词标注词类属性，这项工作通常是在传统语法对词类的划分的基础上进行的，只是分类适应要求做得更细。如在LOB语料库中以NN代表普通名词的单数形式，以NNP代表以大写字母开头的普通名词的单数形式，如Englishman，以NNS代表普通名词的复数形式，如desks，以VB代表动词的基本形式

15、，如write、see，以VBD代表动词的过去式，如wrote、saw，以VBG代表动词的现在分词形式，如reading、eating，以VBN代表动词的过去分词形式，如written、seen，等等。目前自动词类赋码技术已经基本成熟，对英语基本上可以通过计算机自动赋码，且赋码正确率在96%97%左右。句法赋码就是对文本中的每一个句子进行句法标注。以UCREL概率句法赋码系统为例，其句法赋码系统分三个步骤：第一步，对文本中每一个词赋以可能的句法码。该步骤主要依赖于一部标明每一可能词类码对子的句法符的词典。第二步，寻找一些特殊的语法码形式和句法片断，对句法结构作必要的修改。最后，完成每一可能的句法分析，并逐一赋值，从中选出可能性最大，即值最大的句法分析作为每句的分析结果。词类赋码和句法赋码为语言的量化研究创造了条件，为进一步研究自然语言的概率性特征提供了方便，为进一步的语义、语法和语用分析等打下了基础。4、语料库引擎通常意义上的计算机语料库一般包括语料库本体（即语料库电子文本）和语料库引擎（即语料库索引程序）

注意事项

本文（语料库与语料库建设Word格式.doc）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。