精品国内外数字档案馆元数据标准体系比较研究.docx
- 文档编号:10443307
- 上传时间:2023-02-11
- 格式:DOCX
- 页数:11
- 大小:28.12KB
精品国内外数字档案馆元数据标准体系比较研究.docx
《精品国内外数字档案馆元数据标准体系比较研究.docx》由会员分享,可在线阅读,更多相关《精品国内外数字档案馆元数据标准体系比较研究.docx(11页珍藏版)》请在冰豆网上搜索。
精品国内外数字档案馆元数据标准体系比较研究
摘要:
本文简述了档案馆元数据的含义、功能及类型;对于国际上几种常见的档案元数据体系,如EAD、]SAD(G)、ISSAAR(cPF)、EAC、TEI、中国档案著录规则等,就其背景、结构、应用和特点进行了分析与比较,并特别分析了我国档案著录规则与EAD的区别与联系;最后提出了建立我国数字档案馆元数据标准体系的几点建议。
关键词:
数字档案馆;元数据;EAD;中国档案著录规则
中图分类号:
G250文献标识码:
A文章编号:
1007—7634(2007)03—0382—08
AComparativeStudyonMetadataSystemsofDigitalArchivesatHomeandAbroadWANGXiao—li,WANGFang(Business&hoolofNankai,Tianjin300071,China)Abstract:
econcept,functionsandtypesofawhivalmetadataarcintroduced,thenthebackground,cotlatructure,applicationandcharacteristicsofsomekindsofcol-fllllonarchivalmetadatasystermthroughouttheworld,suchasB,ISAD(G),ISsAAR(CPF),EAC,’IEIandChineseArchivesDescriptionRules,aresunlmarizedandc~nparised,andthenthediferencesandrelatiombetweenChineseArchivesDescriptionRulesandEADareanaly~ed,atlast,afewsuggestionsonestablishingChinesedigitalarchivesmetedatasystemaputforward.
Keywords:
digitalarchives;metadata;EAD;chinesearchivesdescriptionrules
数字档案馆是随着计算机网络技术的发展而产生的,近年来世界许多国家的数字档案馆建设进展迅速,我国数字档案馆的发展也取得了令人瞩目的成绩。
在网络化时代,数字档案馆的建设要求网络化、标准化与国际化,元数据体系是数字档案馆资源管理、开发与利用的基础。
元数据标准的通用性、开放性与标准化对于数字档案馆的长远发展十分重要,任何孤立、封闭的数字档案馆系统,其可持续发展都将受到制约。
本文将对目前世界上一些主要的档案元数据标准及我国的档案著录规则进行比较分析,希望能对我国数字档案馆元数据体系的建立提供参考。
l档案馆元数据的定义、功能及类型元数据最先指作为计算机科学领域的专用术语出现在美国国家航空与航天局的“格式交换手册”(DirectoryInterchangeFormat,DIF)中l¨o后来被引入到各个领域。
如图书馆、档案馆、博物馆等。
元数据的最基本定义为:
关于数据的数据(dataaboutd日l上e)。
目前关于数字档案馆的元数据定义较多,但基本内涵是一致的。
笔者认为,数字档案馆的元数据是用来描述数字档案的内容、结构及背景特征的数据,它是一个结构化的标准体系,其目的是对数字档案信息资源进行组织、管理、发现、识别、选择、定位、开发、利用和评价,追踪档案在管理和使用过程中的变化,有助于实现数字档案信息资源的凭证价值、集成整合与长期保存。
数字档案馆元数据的主要功能有:
①著录功能,这是最基本的功能,描述档案数据的内容、结构及背景特征;②检索功能,为用户提供方便快捷、多层次、多途径的检索体系;③选择功能,支持用户在不浏览档案信息的情况下,对信息对象有基本了解,从而决定对信息的取舍;④定位功能,提供档案信息资源本身所在位置的信息;⑤管理功能,保存对档案日常使用、管理方面的相关信息,便于数字档案的管理。
对数字档案馆元数据的编写可采用一定的格式。
由于数字档案资源的形态各异,不同形式和内容的数字资源对元数据格式的要求也不一样。
按照元数据描述的对象来分,目前常见的档案元数据格式主要有:
对档案内容描述的元数据,如:
国际档案著录标准(总则)ISAD(G)(GeneralIntemation.alStandardArchivalDescription)、档案编码著录EAD(EnArchivalDesefipfion);描述档案背景信息的元数据,如:
法人、个人及家庭背景信息国际档案规范文本ISAAR(cPr)(InternationalstandardAtchivalAuthorityRecordforCorporateBodies,Persons,andFamilies)、编码档案背景规范EAC(EncodedArchival~ntext);其他,如档案、个人论文和手稿APPM(Archives,Personalpapers,andManuscripts)、文本编码项目,IEI(Textr~codingInitiative)等。
2国外主要档案元数据标准
2.1EAD
2.1.1背景
EAD格式主要用于著录档案和手稿资源,包括文本文档、电子文档、可视材料和声音记录。
最早是美国伯克利加利福尼亚大学图书馆发起的伯克利检索工具项目(BerkeleyFindproject,BFAP)中提出的,1998年完成了第一版EAD标准,主要有四部分组成,其中EADDTD是该标准的主体部分。
EADDTD是基于《通用档案著录国际标准》[SAD(G)之上的一部档案著录交流标准。
它是以通用标准语言(SGML)和扩展标记语言(X舰)文件类型定义(【yID)的形式存在的。
现在已有了EAD2002版,此版本在第一版的基础上新增了<实体技术>
现在由美国档案馆员协会的编码档案描述工作组(theEncodedArchivalDescriptionWorkingGroupoftheSocietyofAmericanAr—chivists)与美国国会图书馆网络开发和MARC标准办公室(theNetworkDevelopmentand/VL~RCStandardsOtiiceoftheLibraryofCongress)共同维护拉】o
2.1.2结构
EAD格式的记录由
由于篇幅的限制上表中只列出一些常见的元素,丽并不是全部。
有些元素是反复出现的,在这里也没有列出来。
如
有些元素虽然为必备项,但是它的子元素和孙元素并不一定全部都是必备的。
2.1.3特点
EAD是目前全球档案界最有影响的档案著录结构标准之一,主要具有以下特点。
(1)著录详尽,适用范围广泛。
EAD可以提供详细的全文描述和存取,为档案馆的目录提供了一种结构化的描述,能适应任何长度的目录和记录,并能够描述在各种媒体上的所有类型的档案,包括文本文档、电子文档、可视材料和声音记录等等。
(2)易用性和兼容性。
由于EAD基于XML和SG地,XML和SGML具有易用、直观、透明度高、使用灵活,不依赖任何软、硬件平台等特点,因此具有易用性,并且可以简易地同现在许多基于XML的元数据(如:
DC、MARC、ISAD(G))互换,真正实现文件信息的共享。
(3)可扩展性。
EAD只有3个层次,各档案机构可以根据档案馆的特点,在给定的规则之下自行绵写标签,并且在
(4)便于检索:
EAD的元素是结构化、层次化的,除了支持对字段和全文一般的检索如布尔逻辑检索、截词检索、近似检索之外,还可以在目录中查找单个项目和离散的数据项,便于满足用户具体需要,快速获得所需信息。
2.1.4应用
自从EAD问世以后,有越来越多的国家和地区的档案机构应用D,目前几个影响较大的项目主要有以下几个Hl。
(1)美国加州遗产项目(CaliforniaHeritageProject),加州遗产收藏是一个公共的数字档案馆,收藏有关加州历史的照片、画片、手稿等。
他们将大量的这种资料通过扫描的方式数字化,然后直接用EAD著录,到1998年3月,他们已在网上提供了154个B编码的检索工具。
(2)加州联机档案馆项目(eolllJn6archiveofC_adiforniaproject),这是一个用FAD对检索工具编码的试验项目,它的目标是建立一个包括3000页的档案检索工具数据的原型数据库。
(3)核心执行项目(COleexecutivepilotproject),由英国皇家委员会发起,目的是对英国中央政府1916年至今的部分文件的检索工具提供网上利用。
在国内的应用主要有台湾中央研究院历史语言研究所采用EAD1.0对所收藏的内阁大库明清档案进行著录”【5】。
2.2(G)
2.2.1历史背景
国际档案著录标准(总则)I(G)是国际档案理事会ICA(InternationalCouncilOnArchives)制定的第一个档案著录标准,1990年开始,UNESCO的PCI(GeneralInfonmti~P,~rame)与ICA合作建立ISAD(G)。
指定了世界各地档案共同著录的二十六个项目,尽可能地以档案资料的确定称谓来建立档案信息智能控制与存取,旨在协助以传统和电子方式进行档案资料的著录和这些著录间的转换。
1994年ISAD(G)第一版正式形成,2000年初正式出版了第二版,现在ISAD(G)已经被翻译为多种语言,包括葡萄牙语、荷兰语、法语、英语、德语、威尔斯语,遗憾的是还没有汉语版本】。
2.2.2结构
ISAD(G)由以下七个部分组成,每个部分又有自己的子项II[71。
(1)身份声明(IdentityStatement),提供定义著录单元的必要信息,包括相关代码(Referencecode(s))、题名(Ide)、13期(Dates)、著录层级(Levelofdescription)、著录单元的范围与媒体(E】【-tentandmediumoftheuIlit)o
(2)背景(Context),提供有关著录单元的原始次序和管理状况的信息,包括档案形成者名称(Nanleofcreator)、立档单位的行政/历史考证(Ad.ministrative/Biographicalhistory)、档案历史(Arehi~history)、接收或征集的档案文件的直接来源(h.mediate8oui~eofacquisitionortransfer)。
(3)内容和结构(ContentandStructure),提供有关著录单元的主题资料和编排的信息,包括范围与内容(Scopeandcontent)、鉴定/销毁及保管期限划分的信息(Appraisal/destructionandschedulingin.formation)、增加(Accruals)、编排体系(Systemofarrangement)。
(4)检索和利用的条件(ConditionsofAccessanduse),提供便于检索利用方面的信息,包括检索控制条件(Conditionsgoverningaccess)、利用控制条件(Conditionsgoverningreproduction)、语言/手稿资料(Language/scriptsofmateria1)、实体特征与技术要求(Physcialcharacteristicsandtechnicalrequire.n~nts)、检索工具(Fmdinsaids)。
(5)相关资料(AlliedMaterials),提供与有关著录单元有重要关系的资料,包括原件存放位置(Existenceandlocationoforiginals)、其它版本的存放位置(Existenceandlocationofcopies)、相关著录单元(Relatedunitsofdescription)、出版附注Publica—tionnote)o
(6)附注(Notes),提供特殊信息及不能放在其他范围的信息。
(7)著录控制(DescriptionContro1),提供著录的有关时间、方式和人等信息:
档案工作者附注(Archivistsnote)、规划或协议(Rulesorconven—tio~)、著录13期(Date(s)ofdescriptions)。
这个一般原则所包含的26个元素中,有6个元素是必须被使用的,有相关代码、题名、13期、著录层级与著录单元的范围。
2.2.3EAD与ISAD(G)的关系
EAD是在ISAD(G)的基础上发展起来的,它们在对档案的著录、定位和检索方面各具优势,ISAD(G)是通用性原则,具有更强的简易性和互通性,两者相辅相成。
ISAD(G)与EAD具有很强的映射关系,如表2所示。
2.3ISAAR(CPF)
2.3.1背景
法人、个人及家庭背景信息国际档案规范文本IsAAR第一版是由ICAAdHocCommissiononDescaptiveStandards(ICA/DDS).在1993年到1995年期间发起的,1996年正式出版,2004年又制定了第二版。
第二版简称Is(CPF)20o4,是第一版的扩展和重构,在内容上由第一版的三个部分变为第二版的四个部分,另外还对此标准如何与档案材料和其他资源如(rSAD(G))相链接进行了描述【8】。
2.3.2结构
ISAAR的元素共分为四大类,每个大类下面又分为很多子元素】。
(1)身份(IdentityArea)。
包括团体类型、名称正规形式(Authorizedform(s)ofname)、平行名称形式(Parallelformsofname)、其他规定中的标准名称形式、其他名称形式、团体机构标识符(Identifiersforcorporatel~lies)。
(2)录(DescriptionArea):
存在时间、历史、地点、法律地位、作用、职业和活动、授权/正规出处、内部结构/家谱与一般背景。
(3)关系(RelationshipsArea):
相关团体、个人和家庭的名称/标识、关系类型(Categoryofrela.tionship)、关系描述、关系13期。
(4)控制(ControlArea):
正规文件识别、机构识别、规则和/或协议、地位、细节层次、创立/修改或删除的时间、语言和手稿、来源、保管附注。
其中团体类型、正规名称形式、存在13期与正规文件标识四个元素是必选的。
2.3.3作用
IsAAR(CPF)为著录形成档案的法人、个人以及家庭提供了一个标准工具。
在著录系统中创建既相互分离又互有联系的档案形成者的描述,为获取以及管理、发现、利用和理解档案的背景信息提供了一个有效而灵活的手段。
Is从R(CPF)将与EAD兼容,以便于建立一个传记和历史数据库,这个数据库对团体机构、个人和家族文献进行处理,并有利于分散的和复杂的全宗著录。
另外按照此标准建立起来的文件可以达到跨国、跨语言链接背景信息的目的,如链接关于移民和贸易等具有跨国特征的文件。
2.4EAC
2.4.1背景
由于FAD不能提供独立的关于文件作者及背景的信息。
为了满足这一需要,多伦多大学的W~ndyDuf和耶鲁大学的RichardSzary,在1998年最先提出建立一个对创作者和背景信息的编码标准。
在美国联邦数字图书馆的支持下,他们于1999年在耶鲁大学举行会议。
在2001年三月和六月分别在多伦多大学和福吉利亚大学举行了两次会议,开始制定关于档案编码背景规范(EAC)【9J。
EAC是一项基于可扩展性语言(XML)的元数据标准,是FAD的延伸和扩展。
除了适用于档案领域之外,还可利用在图书馆、博物馆,个人传记和组织历史及大的家谱数据库中。
2.4.2结构
每个EAC文件(EACdocument)包括两个部分:
头标<~header>和环境描述
<~header>除了以上的分元素外,还包括许多属性,如创作者类型(Type):
个人、团体或家庭,版本的地位(sta衄s):
草稿本、正式本(edit.ed)或删除本等。
在
加拿大,一个团体的名字经常用多种语言描述。
2.4.3与ISAAR(CPF)的关系
EAC是ISAAR(CPF)的补充,为了保持EAC与ISAAR(CPF)修订版的一致性,决定参与多伦多会议的许多成员同时也参加ISAAR(CPF)第二版的制定,而且制定EAC的原则与方法将提交到国际档案著录标准委员会来指示ISAAR(CPF)的修订,因此EAC模式将与修订版ISAAR(CPF)完全相一致mJoISAAR(CPF)这一标准只陈述了支持档案正规信息交换的一部分条件,成功的网络档案正规信息自动交换取决于交换存储器对一套交流格式的应用,EAC就是一种支持ISAAR(CPF)与档案正规数据在网上交换的一个交流格式【llJ。
2.5TEI
2.5.1背景
文本编码项目TEI主要用于文字信息的转换,但对于其他格式的信息如图像声音等也有涉及。
它不但可以用于新建立的电子文件的著录,也可以转换已存在的纸质档案资料。
TEI现在已被称为文字资料的电子格式。
第一版的TEI使用标准通用标志语言(SG地),最近的版本(TEIP4,2002),已可使用可扩充标志语言())。
因此TEI格式具有很大限度的灵活性、综合性、可扩展性n2J。
2.5.2结构
所有符合TEI标准的文件都包括一个TEI标头部分(以元素
TEI标头部分提供的信息与印刷本提供的书名页类似,包括四个部分:
①文件描述
2.6五种档案元数据标准体系之间的比较从使用状况来看,大部分欧洲国家如英国、法国、瑞典、德国、西班牙、意大利等采用国际档案理事会编制的档案著录通用规则(Is.AJ)(G))和档案规范记录国际标准(ISAAR(CPF)),对档案进行多级著录和多媒体信息管理。
而在北美较多使用EAC和EAD进行档案的著录¨J。
具体的关系可以用下表来说明以上五种元数据格式的联系与区别。
3我国档案著录规则与EAD的比较从国内外情况看,我国制定档案著录规则起步较早,“1985年制定了我国档案界的第一个国家标准,即{GB/3792.5—8.5档案著录规则>”【捌。
目前我国使用的(DA/TI8—1999档案著录规则>,由中华人民共和国国家档案局于1999年5月31El批准,是中华人民共和国的档案行业标准。
此标准所引用的标准有GB/T3792.1—1983文献著录总则、GB,I7156—1987文献保密等级代码、GB/T9704—1988国家机关公文格式、GB/T154l8—1994档案分类标引规则、GB/T3860—1995文献叙词标引规则、DA/T1一l992档案工作基本术语与19—1999档案主题标引规则。
《档案著录规则》与EAD相比既有相同之处,又有较大区别。
两者的相同之处如下:
首先,二者的著录对象都主要是针对档案资源;其次,在著录项目的设置上存在一些相同之处,如:
“正题名、并列题名”与“
(1)著录元素的数量和格式不同。
在元素数量方面,我国《著录规则》的元素共分为七个大项,2o小项,要比EAD元素少得多,且针对电子档案的著录元素极其缺乏,如:
文件的版本、编程语言、文本类型、应用软件等。
另外,FAD是利用XML语言进行层次化和等级式的著录,所有的元素都包含在
(2)著录的层次等级不同。
从以上的格式可以看出我国的档案著录规则只是进行案卷级和文件级的著录,而并没有对全宗进行著录,如机构的行政管理历史、档案的历史沿革、传记概况等,这样的著录结果违背了档案全宗的基本原则。
而EAD则是多层次分级著录档案对象,通过对文件整体的著录及更多分级著录,如:
系列(series)、子系列(sub—series)、案卷(folder)、条目(item)等来提供一种结构性的检索工具(rmamgaids)【1。
其著录的结果可以反映档案实体管理的各个级别。
(3)主要著录对象不同。
我国《档案著录规则》主要为相对稳定的物理载体,并且主要是用于档案的后控著录,所以不适宜电子档案的著录;而EAD是为数字资源而制定的。
其设计原则具有可扩展性、可选择性、可重复性等特点,有利于揭示各类电子文献的各种特征,进而达到网络资源的组织、分类、索引等目的。
(4)著录规范化手段不同。
EAD是以XML语言格式著录的,XML的标准语法结构“<,>著录内容</>”能够保证著录文档的规范和有序化。
而我国的档案著录主要*一些置标标识符来保证目录数据的规范化和有序化,主要的标识符有“引:
“.一”表示其后的数据项是一个大项、“,”表示其后的数据项是一个责任者项、“:
”表示其后的数据项是文种或规格、“;”表示其后的数据项是保管期限等。
(5)简易程度和扩展性不同。
我国档案著录规则的著录虽然元素比EAD少,但是著录规则要繁琐得多,并且扩展性差,对每个项目的先后秩序及格式都具有严格的规定,而在EAD的
而且EAD是基于X肌语言格式的元数据,可以与很多元数据甚至是其他学科领域的元数据交换。
从目前的情况来看,我国《档案著录规则》远不能适应网络化和数字化环境的需要,应该尽快制
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精品 国内外 数字 档案馆 数据 标准 体系 比较 研究
![提示](https://static.bdocx.com/images/bang_tan.gif)