信息检索复习题.docx
- 文档编号:6261962
- 上传时间:2023-01-04
- 格式:DOCX
- 页数:17
- 大小:31.74KB
信息检索复习题.docx
《信息检索复习题.docx》由会员分享,可在线阅读,更多相关《信息检索复习题.docx(17页珍藏版)》请在冰豆网上搜索。
信息检索复习题
1.什么是信息的级别?
它们是如何分类的?
P2
信息具有“可塑性”,为了便于人们利用信息,信息工作者将信息加工处理为不同的等级:
(按照信息的加工顺序)
1)一次信息(PrimarySources)
一次信息习惯上称作原始文献,也称原始信息源,它是作者依据本人的科研和工作成果而形成的文献,这类文献是脑力劳动的正式产品,是科研成果的一种主要表述方式,代表新知识,组成了可供交流的系统性信息。
此类文献主要包括:
图书、期刊和报纸、科学考察报告、研究报告、会议论文、学位论文、专利说明书、技术标准、政府出版物、产品样本等。
2)二次信息(SecondarySources)
二次信息指根据实际需要,按照一定的科学方法,将特定范围内的分散的一次信息进行加工整理使之有序化而形成的文献。
这类文献有:
期刊(仅限于揭示和评述一次信息的那些类型)、索引和文摘、论文集、图书馆目录等。
3)三次信息(TertiarySources)
三次信息指通过二次文献提供的线索,选用一次文献的内容,进行分析、综合、研究后而编成的文献。
一般包括:
专题评述、动态综述、进展报告、学科年度终结等。
4)零次信息(ZeroSources)
除了以上对于信息等级的分类外,还有一类信息指未经正式发表或不宜公开和大范围内交流的比较原始的素材、底稿、手稿、书信、工作文稿、工程图纸、考察记录、实验记录、调查稿、原始统计数字,以及各种口头交流的知识、经验或意见论点等,此类信息称之为零次信息。
2.比较目录、索引、文摘、引文概念的差异。
P5
目录(Catalogue):
使人们用的最多,历史最悠久的一种检索工具,是对图书、期刊等出版物外表特征的著录,很少揭示其内容,通常是以一本书、一种刊为著录的基本单元。
它记录图书、期刊、资料的名称、著者、出版项与馆藏情况。
一般按其标目的内容可分为书名目录、分类目录、著者目录、主题目录等。
索引(Index):
索引与目录不同,目录是著录文献的外表特征,而索引是著录文献的内涵,如图书、期刊中的单篇文章,著录文章的题目、著者、出处及文种等。
目录是以上书刊资料的种为著录单位,索引是以书刊资料中某一部分为著录单位,很多检索刊物的名称实际与内容不符合。
文摘(Abstract):
文摘不仅包含了文献索引内容,还包含了文献的内容摘要。
文献是用简明、扼要、准确的文字对原始文献所做的摘要,供读者阅读,以代替阅读原文,节约时间。
包括:
指示性文摘,对篇名的进一步解释,一般在50—150字;报道性文摘,对原文进行详细、深入的摘要,一般在200—300字。
引文(Citation):
是一种与一次文献同时出版的“准二次文献”。
具体地讲“引文”就是从一部著作引用某一章节,对于该著作或对于一项陈述或主张作为权威依据的某些来源资料的参考注释。
3.简述确定核心期刊的方法。
对科技期刊进行分析测度的常用指标有哪些?
P8
(根据学科信息含量及所含信息质量,可将期刊分为核心期刊和非核心期刊。
核心期刊又称为重点期刊、常用期刊,它是指那些科技情报密度大,代表该学科,所刊载的论文使用寿命长,借阅率和引用率都较高的期刊。
)
核心期刊的判别标准是:
1)期刊的被摘率:
主要指有关权威的文摘刊物摘录的情况。
核心期刊中的论文被摘率高于非核心期刊。
2)期刊论文中的被引用率:
主要指其他作者在论文写作中应用该刊物中文献的频度。
核心期刊中的论文经常被其他论文作者所引用。
3)期刊流通过程中的读者利用率:
核心期刊利用率通常高于非核心期刊。
4.什么是文献的半衰期?
P32
所谓“半衰期”,是指某学科领域现时尚在利用的全部文献中的一半是在多长时间内发表的。
5.科技报告有何特点?
按技术内容分类有哪些?
科技报告特点如下:
第一,科技报告的形式比较特殊,每份报告自成一册,篇幅长短不等,用连续编号(即报告号,通常由报告单位缩写代码+流水号+年代号构成),发行范围控制严格,不易获取原文,装订简单,出版发行不规则;
第二,科技报告的内容比较新颖、详尽、专深。
其中可以包括各种研究方案的选择与比较,成功与失败两方面的体会,还常常福附有大量的数据、图标、原始实验记录等资料;
第三,科技报告发表比较及时,报道新成果的速度一般快于期刊及其他文献;第四,大部分科技报告都有一定的流通范围控制,即属于保密的或控制发行的,仅有一小部分可以公开或半公开发表。
按技术内容分:
报告书(report)、技术札记(technicalnotes)、备忘录(memorandum)、论文(papers)、通报(bulletin)、技术译文(technicaltranslations)、特种出版物(specialpublications)。
6.Proceedings、Symposium、Transactions分别表示什么具体的文献?
P10
会议文献是指在各种学术会议上交流的学术论文。
会议文献按出版时间可分为会前文献和会后文献。
Proceedings是会议录、Symposium是会议论文集、Transactions是会议论文汇编。
他们都属于会后文献。
7.什么是专利权项?
p11
专利权项是阐明发明的独创部分、明确规定要求保护的专利权范围。
它是判断侵权依据的法律性条文。
8.专利有哪些种类?
p11
按专利权种类可分为发明专利、实用新型专利、外观设计专利。
按法律状态分可分为申请说明书、公开说明书、审定说明书、公告说明书。
9.专利号是如何构成的?
以CNY为例,解释其各部分的含义。
P12
专利号由国别代码(两位字母)+顺序号(7位数字)+法律状态码(1位字母)组成。
CNY中CN代表中国、2表示实用新型专利、后六位是流水号、Y表示实用新型专利授权公告号。
P11
10.识别标准文献的依据是什么?
P12
识别标准文献的依据主要有:
标准级别、标准名称、标准号、审批机构、颁布时间、实施时间等。
11.政府出版物有哪些类型?
与一般文献相比,有什么差异?
P13
1)政府出版物可以分为行政性和科技性两类。
行政性文献(包括立法、司法文献),主要有政府法令、方针政策、规章制度、决议、指示、统计资料等,主要涉及政治、法律、经济等方面;科技文献主要是政府部门的研究报告、标准、专利文献、科技政策文件、公开后的科技档案等。
2)与一般文献相比,政府出版物又称官方出版物,由各国政府部门及其所属机构出版,
大部分是公开出版发行的,少数则是由政府直接分发至某些部门或个人,在一定范围内使用,具有内部保密性质,但过若干时间以后则予以解密或公开。
12.什么是OPAC?
P15
OPAC(OnlinePublicAccessCatalogue)联机公共检索目录。
读者可以万维网实现图书的查找和借阅。
13.比较电子读物现存格式的功能及差异。
P15
针对不同介质,电子图书以几种方式出现:
1)完全执行文件:
一般带有保护性质,资料量大,有保密性,可阅读性比较差。
适合于内部刊物等。
2)专有格式:
需要以某种专门的阅读器阅读,功能比较固定,目前仅有国外几种阅读器适用,升级/二次开发依赖国外软件商的升级,不利于国内快速增长的电子图书市场。
3)通用格式:
一般以通用的图文混排格式制作,即使没有阅读器,一般用户也可以在自己的电脑上阅读,而定制的增强功能的阅读器则可以发挥更高的阅读效率。
(以上不确定的答案我觉得不对,作此补充)
电子读物文件格式:
1)EXE
制作工具最多;阅读方便,制作简单,制作出的电子读物精美,无需专门的阅读器支持;不支持Flash和Java及常见的音频视频文件,多数此格式的图书均无法直接获取其中的文字图像资料。
2)CHM
是基于HTML文件特性的帮助文件系统;要求操作系统必须是Windows98或NT及以上版本。
3)HLP
是早期的操作系统所使用的帮助文件系统;美观程度不够好;制作简单,获取方便,对阅读者无需特别的要求;很多软件的帮助文件使用这种格式。
4)PDF
需要PDF文件阅读器AdobeAcrobatReader来阅读;这种格式的电子读物美观,便于浏览,安全性很高;不支持基于HTML的各种技术,只适合于浏览静态的电子图书。
5)CAJ
需要CAJ文件阅读器CAJViewer在本机阅读;访问“中国期刊网”的“全文数据库”,查找到特定的文章后可以下载相应的CAJ文件。
6)PDG
图文资料数字化技术(PDG)、专用阅读软件——超星图书阅览器(SSReader),形成了数字图书馆的整套解决方案;是中国乃至全世界数字图书馆建设的基本模式之一。
7)NLC
是中国国家图书馆的电子图书格式;可使用软件bookreaderforNLC阅读。
8)WDL
国内很多大型的电子出版物都使用这种格式;可以在线阅读,也可以下载到本地阅读,但对打印和拷贝做了限制;支持图片的导入;需要专门的阅读器DynaDocFreeReader。
9)SWB
比较少见;是软件WinEbookCompiler的一种专有格式。
10)LIT
是软件MicrosoftReader的一种专有的文件格式;不支持与HTML有关的各种技术,只是支持图片的浏览;对中文支持不是很好。
11)EBX
使用名为theGlassbookReader的阅读起来阅读,可以包括sound,wave等多媒体文档。
12)DJVU
是一种经优化用于扫描彩色页面的新型文件格式;压缩比更大,压缩速度更快;用DjvuLibre阅读。
13)CEB
是完全高保真的中文电子书格式,能够保留原文件的字符、字体、版式和色彩的所有信息;对文字图像等进行很好的压缩,文字的数据量很小。
14)OEB
是基于XML的标准,面向电子书的文档结构说明;用方正ApabiReader或者掌上书房阅读。
15)XEB
是与国际标准接轨,以OEB为基础,以XML技术为核心的中文电子图书格式;可以自动调整、适应屏幕大小显示电子图书内容。
14.文献有哪些特征?
它们与文献的对应关系是什么?
P18
文献特征及其对应关系:
外表特征
内容特征
精确对应
标题、作者、作者工作单位等
模糊对应
主题词、关键词、分类号等
15.MeSH是怎样构成的,它在检索过程起什么作用?
P21
1)《医学主题词表》简称MeSH,有两大部分构成。
第一部分是按主题词字顺排列的“字顺表”,第二部分是“树状结构表”,又称“范畴表”。
2)它是NLM对医学文献标引的依据,也是用户检索《医学索引》的入口。
16.简述信息检索的过程。
信息检索的过程大致可以分六个步骤:
①分析课题②选择检索工具③确定检索途径④选定检索方法⑤查找文献线索⑥索取原始文件。
17.索取原始文献的方法有哪些?
①刊名②文献类型③论文著者的地址
18.如何采取措施解决检索过程中的误检漏检问题?
①对检索词进行限定,包括相关的字段限制、分类限制、时间段限制等;
②具体主题概念;
③避免对所选的检索词截词截的过短;
④选对数据库;
⑤避免检索概念太多、概念错误或者拼写错误;
⑥避免不规范的主题词或某些产品的俗称、商品名作为检索词;
⑦完整运用上位概念和下位概念;
⑧避免位置算符过多、过严或者字段限制太严格;
⑨充分考虑同义词、近义词、和隐性概念。
19.简述文献计量学的六大规律。
①布拉德福定律——也称文献分散定律,它是定量描述科学论文在相关期刊中集中-分散状况的一个规律,主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。
②洛特卡定律——描述科学论文作者动态的最早的量化规律。
③齐普夫定律——关于文献中的词频分布规律。
④文献增长规律——最具代表性的是普赖斯提出的指数增长规律,其逻辑曲线表明,在科学文献增长的初始阶段是符合指数增长规律的,但这种增长趋势到一定时期将会减弱,当文献增至最大值的一半是增长率就开始变小最后缓慢增长并以K为极限。
⑤文献老化规律——1958年首先提出“半衰期”,是指某学科领域现时尚在利用全部文献中的一般是在多长时间内发表的⑥文献引用规律——引文量分析是文献引用规律研究的主要内容。
20.简述信息系统的构成。
①搜集信息子系统:
信息搜集就是通过各种管道广泛搜集,用一定的方法、鉴定、分析、选择和获取信息的活动。
②加工子系统:
信息加工是以唯一的标识识别某一信息,并使搜集的信息有序化,使用户通过查找其他特征找到并获取该信息。
③管理存贮子系统:
信息存储技术可以分为机械存储、光存储、磁存储和电荷存储。
④通信子系统。
⑤提供信息子系统。
21.以CNMARC为例,分析机读目录的构成、各数据域位在机读介质上的总体安排与内容结构。
P37
其构成主要包括:
记录头标区:
是根据ISO2709制定的对记录进行处理时所用的通用信息。
记录头标区出现在每个记录的开头,是必备的和不可重复的,且没有字段号、指示符或子字段标识。
头标中的数据元素师由字符位置标识的,是定长数据,总长度是24个字符。
地址目次区:
列出记录中的数据域位及其在记录中的位置。
数据字段区:
记录目录的各项数据。
22.什么是DC元数据?
它有哪些类型?
P38
DC元数据即“都柏林核心(DublinCore)元数据”,于1944年第二次WWW国际会议讨论引出。
DC元数据规范最基本的内容是包含十五个元素的元数据元素集合,用以描述资源对象的语义信息。
其十五个基本元素可分为三类:
∙资源内容描述类元数据项(7个)
名称,主题词及关键词,说明,语言,来源,相关资源,范围。
∙知识产权描述类元数据项(4个)
创作、制作者,出版者,其他贡献者,版权(权限)。
∙外部属性类元数据项(4个)
时间,类型,格式,标志。
23.什么是RDF?
它有什么作用?
P41
RDF是万维网联盟于1999年颁布的一个因特网建议。
他的功能是利用当前存在着的多种元数据标准来描述各种网络资源,形成人机可读,并可以由计算机自动处理的文件。
24.简述信息检索技术的研究内容。
1)检索模型研究
信息组织是实现信息检索的基础,原始文件包括文本、图像、视频、音频等数据,不能直接检索,需要从这些原始数据中抽取逻辑视图,支持信息检索。
用户用查询来表示信息需求,检索系统则根据查询的表示搜索相关文档集。
信息检索的匹配是按相似度来进行的,查询的结果按序返回。
信息检索中4个传统模型是:
布尔模型,向量空间模型,概率模型,逻辑模型。
2)信息处理技术研究
可分为信息的自动分类、自动文摘、查询的扩展和精化,检索相关性分析研究。
25.常用的检索技术有哪些?
P50-P59
常用的检索技术有:
布尔逻辑检索
加权检索,包括词频加权、检索词赋值、加权标引。
全文检索,包括安字检索和按词检索。
超文本与超媒体检索
网络信息检索
Web2.0
26.什么是索引的膨胀系数?
它与检索速度的关系是什么?
54页
索引的膨胀系数是指针对全文所见的索引文件大小与全文档大小之比,例如没有为全文创建索引的全文检索系统,其膨胀系数为0,若索引文件与全文文件一样大,其膨胀系数等于1。
即:
索引的膨胀系数=索引文件的大小/全文数据库的大小。
索引的膨胀系数越大,检索速度越慢。
反之,索引的膨胀系数越小,索引速度越快。
27.简述WEB2.0的典型技术。
59页
博客、RSS、百科全书、网摘、社会网络、P2P、即时信息。
28.简述国内文献信息服务机构的类型。
61页
图书馆系统、科技信息服务系统、专利文献服务系统、档案馆系统。
29.什么是药典?
其特点是什么?
78页
药典是记载药品标准的法典,一般由国家卫生行政部门主持编窜颁布实施,国际性药典则由公认的国际组织或有关国家协商编订。
药典的重要特点是法定性和体例的规范化。
30.如何制定手工检索策略检索药学文献?
71页
医药工具书的选择
(1)具体问题先查相应的类型的医药工具书。
(2)同一课题可用多种类型的医药工具书来查解。
(3)某些课题需要多种医药工具书配合查解。
医学语言的查找
(1)一般医学名词术语的查找。
(2)医学名词译名的查找。
(3)医学缩写和略语的查找。
医学人物资料的查找
(1)利用医学名人录或医学传记辞典
(2)利用医学百科全书或医药年鉴
(3)利用有关的人物传记索引
(4)利用医学文献检索工具
医学机构资料的查找
(1)利用医学机构名录
(2)利用医药学年鉴
(3)利用医药学文献的检索工具
医学统计资料的查找
(1)利用专门的统计年鉴
(2)利用医学资料汇编或资料性手册
(3)利用报刊资料料
医药卫生法规资料的查找
(1)利用卫生法规汇编
(2)利用医学年鉴
(3)利用卫生法规文摘和索引
医界大事资料的查找
(1)利用医界大事年表
(2)利用医学百科全书
(3)利用医学年鉴
(4)利用医史专著、医学参考工具及其后的附录
医学图像资料的查找
(1)利用医学图谱
(2)利用医学地图集
(3)利用医学人物肖像集
(4)利用含图的医学工具书
医学资料的查找
(1)利用药典查药品标准
(2)利用医药词典或手册查找基本简略资料和最新药名
(3)利用百科全书查背景资料
(4)利用医学年鉴查药物的研究进展及临床应用。
(5)利用药物手册,查药物的临床知识等实用性的资料
(6)利用医学文摘和索引,查找最新资料。
31.简述利用文本CA检索药物紫杉醇相关研究文献的步骤。
32.简述OPENACCESS及其国内外具有代表性的资源。
P110-111
开放存取期刊目录,由瑞典LUND大学图书馆于2003年创建和维护的开放存取期刊门户网站,旨在收录覆盖所有学科,雨中的高质量的开放存取期刊。
收录主题包括:
农业及食品科学、美学及建筑学、生物及生命科学、经济学、化学、地球及环境科学、一般主题、健康科学、历史及考古学、语言及文学、法律及政治学、数学、统计学、哲学及宗教学、物理及天文学、一般科学、社会科学、工程学等主题。
DOAJ的目标是:
增加科学期刊开放存取的显示度,方便使用开放存取期刊,促进开放存取期刊的使用,增加开放存取期刊的影响力。
DOAJ收录的期刊必须实行通行评议或编译质量控制,均允许用户阅读、下载、复制、传播、打印、检索或链接全文。
DOAJ可进行论文查询和期刊查询,在其抗查询中又可以通过期刊名称浏览和主题分类进行查询。
开放存取知识库名录,是2005年2月由英国的Nottingham大学与瑞典的lund大学合作开发,有OSI.JISC.CURL和SPARC欧洲部等机构资助,对各领域的开放存取知识库进行记录和分类,专门提供综合权威的机构知识库、学科资料库等资源的目录列表,用户可以通过知识库的地点、类型、收藏资料等等方法检索使用这些知识库。
DOAR既适合那些希望在专门的知识库忠查找原始研究论文的用户使用,也使用如搜索引擎等服务第三方使用,根据2007年5月的资料表明,在DORA注册的机构知识库有986个。
XX百科解释:
OpenAccess通常被译作开放存取、开放获取、开放共享、开放访问、开放近取、开放阅览,等等,中文译名的分歧在于对Access的汉译。
鉴于国内对OpenAccess的关注和研究正日渐增加,相关论文也越来越多,因此,对OpenAccess一词的中文译名进行探讨、规范是非常有必要的。
目前被广泛接受的关于OpenAccess的定义最初源于布达佩斯开放存取倡议(BudapestOpenAccessInitiative,BOAI),即:
OpenAccess意味着用户通过公共互联网可以免费阅读、下载、复制、传播、打印和检索论文的全文,或者对论文的全文进行链接、为论文建立索引、将论文作为素材编入软件,或者对论文进行任何其他出于合法目的的使用,而不受经济、法律和技术方面的任何限制,除非网络本身造成数据获取的障碍。
对复制和传播的唯一约束,以及版权在此所起的唯一作用是,应该保证作者拥有保护其作品完整性的权利,并要求他人在使用作者的作品时以适当的方式表示致谢并注明引用出处。
代表性资源:
SOCOLAR(openaccess资源一站式检索服务平台)和openJ-Gate
33.比较PUBMED、RXLIST在检索目标上的差异。
P125大概吧(XX的,书上找不到啊)
1.Pubmed:
PubMed是美国国家医学图书馆(NLM)所属的国家生物技术信息中心(NCBI)开发的因特网生物医学信息检索系统,其覆盖了全世界70多个国家4300多种主要生物医学期刊的摘要和部分全文。
其覆盖的时间段也非常长,早的可以追溯到20世纪60年代。
Pubmed也包含了与提供全文的期刊网址的链接,有的甚至是免费的。
进入主页后,即可输入搜索内容(输入框支持and,no及or等逻辑运算),可以进行主题、著者和日期(YYYY/MM/DD)等检索,输入框左边有可供选择的检索范围。
打开搜索结果的词条,在摘要的页面中即会出现全文链接。
2.Rxlist:
Rxlist是美国的一个处方药物查寻网站,包含在美国已上市和即将上市的处方药物。
其上有对于药品及其仿制品的详细介绍,包括药物基本性质、药效、毒性、处方等类似完整的药品说明书。
打开主页后就可以直接搜索了。
搜索内容包括药物的通用名、商品名、适应症和不良反应,支持逻辑运算。
34.简述生物信息数据库的记录格式及主要检索方式。
P128-129
记录格式:
主要有EMBL格式和GenBank格式,序列文本格式主要是FASTA格式
主要检索方式:
基于关键词的数据库查询和基于序列的类似性检索
35.什么是专利的法律状态检索?
书上没找到。
。
XX到的
法律状态包括:
专利权的授予,专利申请权,专利权的无效宣告,专利权的终止,专利权的恢复,专利权的质押、保全及其解除,专利实施许可合同的备案,专利实施的强制许可及专利权人姓名或名称、国籍、地址的变更。
专利法律状态检索是指对专利的时间性和地域性进行的检索,它分为:
专利有效性检索和专利地域性检索。
专利有效性检索是指对一项专利或专利申请当前所处的状态进行的检索,其目的是了解该项专利是否有效。
专利地域性检索是指对一项发明创造都在那些国家和地区申请了专利进行的检索,其目的是确定该项专利申请的国家范围
36.按照搜索引擎的工作方式,搜索引擎有哪些类型,各自有什么特点?
(P141-142)
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
(1)全文搜索引擎:
通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
(2)目录索引类搜索引擎:
目录索引虽有搜索功能,但仅仅是按目录分类的网站链接而已。
用户完全可以不用进行关键字查询,仅靠分类目录也可找到需要的信息。
(3)元搜索引擎:
元搜索引擎在接受用户查询请求时,同时在其他多个搜索引擎上进行搜索,并将结果返回给用户。
在搜索结果排列方面,有的直接按来源引擎排列搜索结果。
37.试举出国外医药专业搜索引擎三例。
(P144-149)
以下任选三例:
(1)MedicalMatrix
(2)AllHealthNet
(3)MedNets
(4)MDchoice
(5)MedExplorers
(6)INTUTE
(7)瑞典卡洛林斯卡学院医学信息中心
38.试举出国内外期刊全文数据库五例。
(P170-180)
以下任选五例:
(1)SpringerLink
(2)Elsevier(SDOS)
(3)EBSCO
(4)EMBASE
(5)ProquestMedicalLibrary
(6)OV
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 复习题
![提示](https://static.bdocx.com/images/bang_tan.gif)