信息检索重点复习资料.docx
- 文档编号:26780210
- 上传时间:2023-06-22
- 格式:DOCX
- 页数:16
- 大小:36.41KB
信息检索重点复习资料.docx
《信息检索重点复习资料.docx》由会员分享,可在线阅读,更多相关《信息检索重点复习资料.docx(16页珍藏版)》请在冰豆网上搜索。
信息检索重点复习资料
信息检索重点复习资料第一章信息检索概述信息检索(IR):
将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:
人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:
文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:
1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:
通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:
是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:
把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:
最早的信息检索主要依靠信息分类。
1手工检索2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统4联机检索5光盘检索6网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:
1布尔模型2向量空间模型3概率模型1浏览型模型:
扁平式模型、结构导向模型、超文本模型2检索型模型:
结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:
是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:
文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS.信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,由字段、记录和文档构成。
数据库的载体分:
联机数据库,光盘数据库,网络数据库。
按内容与功能划分:
指南数据库,交易数据库,全书数据库,书目数据库,字典数据库,数值数据库,图像数据库。
书目和全文使用频率最高。
信息检索系统评价的核心的检索性能评价。
信息检索评价指标:
1覆盖范围2查全率3查准率4响应时间5用户负担6检索结果输出格式。
检索效果指标主要有:
1查全率2查准率3漏检率4误检率5新颖率6检索速度等。
最主要指标是查全率和查准率。
查准率P:
是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
查全率R:
是指检出的文献数量占数据库中全部相关文献数量的比例。
提高检索效果的措施:
选择质量较高的检索系统、提高检索着的检索水平。
第二章网络信息检索的基本方法:
1布尔逻辑检索它是一种比较成熟、较为流行的检索技术,逻辑检索的基础是逻辑运算,它的运算符有逻辑“与”AND*查准,逻辑“或”OR、+、|查全,逻辑“非”NOT、-。
lycos;Google的默认运算符是布尔逻辑与2邻近检索又被称为位置限制检索,是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。
Dialog系统常用的位置算符1)(W)表示此算符两侧的检索词必须按此前后的顺序排列2)(nW)表示在此算符两侧检索词间可插入n个实词或虚词3)(N)检索项在记录中出现的顺序可以调换4)(nN)表示位置可以调换,两个词间插入词最多数目是n个4)(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内6)(S)表示在此运算符两侧的检索词只要出现在文献记录的同一字段内,此文献即被命中7)(L)运算符表示两侧的检索词在同一个叙词单元,且它们之间有一定的从属关系8)(NOT)它与邻近运算符W,N,S,F,L等组合使用,而产生相反的含义3短语检索短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也称为“精确检索”4截词检索所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分.根据截词符在检索词中的位置,可分为前截词,中间截词和后截词。
“?
”代表0到1个字符;“*”代表0到多个字符。
5字段限制检索为了提高查全率或查准率,需要将检索范围限制在特定的字段中,6括号检索7自然语言检索8多语种检索9模糊检索10区分大小写检索
信息检索的主要技术:
1全文检索技术全文检索技术必须具备一个全文数据库,全文数据库是将一个完整的信息源全部内容转化为计算机可以识别,处理的信息单元而形成的数据集合。
全文数据库的特点:
a信息量大b信息检索的灵活性和适应性c检索语言的自然性d数据相对稳定等不足:
查准率较低2多媒体信息检索技术音频检索分三种:
a语音检索b音乐检索c音频检索3超文本超媒体检索技术超文本检索是信息的组织方法与手段超文本超媒体的缺陷:
信息以超文本方式链接,用户检索的主动性变为被动性,导致检索过程中含有极大的盲目性和偶然性;在链接的过程中,容易偏离检索目标,导致检索“迷航”其发展趋势:
由超文本向超媒体发展,由超媒体向智能超媒体发展,由超媒体向开放超媒体发展。
4智能信息检索技术采用人工智能进行检索的技术,与传统信息检索相比,它最大的特点是检索过程中引入了资源对象的语义处理。
智能化是网络信息检索未来发展的主要方向。
5可视化信息检索技术基础是计算机图形学和认知心理学。
6跨语言信息检索技术跨语言信息检索技术的核心问题是“翻译”。
7文本聚类技术常用的聚类方法有:
层次聚类法,平面划分法,网格聚类法,模型聚类法等。
检索策略:
是为实现目标而实行的全盘计划,在操作上主要指数据库的选择和检索式的编制。
(网络)信息检索的技巧:
1、分析信息需求即要确切了解所要查询的目的和要求,确定需要的信息类型2、选择合适的检索工具不同目的的检索应选择不同的搜索引擎,选择合适的检索工具主要从工具的类型、收录范围、检索问题的类型、检索具体要求等方面综合考虑。
3、确定检索点与检索词关键词选择的建议:
1)使用名词或物体做关键词2)检索式使用2~3个关键词为宜3)使用截词检索4)通过or连接同义词、近义词等不同表达式5)对专有名词使用大写字母指定检索6)对固定短语使用短语检索7)用括号将各个概概念分开。
4、正确构造检索式许多搜索引擎都提供简单查询和高级查询,建议使用后者。
5、及时调整检索策略(扩大检索范围,缩小检索范围)6、检索结果的输出(下载,打印,复制,显示,E-mail发送等)。
第三章搜索引擎的概念及工作原理:
它是一种web上应用的软件系统,它以一定的策略在web上搜集和发现信息,在对信息进行处理和组织后,为用户提供web查询服务。
当用户输入关键字查询时,该搜索引擎会告诉用户该关键词的信息和网址,并提供连接;同时,用户可通过一层层分类目录找到所需信息。
搜索引擎既用于检索的软件又提供查询、检索网站。
搜索引擎:
有三个功能模块,或三个子系统:
及网页搜索、预处理和查询服务。
搜索引擎的分类:
1按信息内容的组织方式划分a目录式搜索引擎Yahoo是目前最流行的目录式搜索
引擎,提供主题目录检索。
B机器人搜索引擎。
2按专业范畴划分a综合性搜索引擎b专业性搜索引擎3按检索功能划分a独立搜索引擎b元搜索引擎两者的区别:
前者拥有独立的网络资源采集标引机制和相应的数据库;后者一般没有独立数据库,多提供统一链接界面,形成一个由多个具备独立功能的分布式搜索构成的虚拟平台。
元搜索引擎:
它是多个独立搜索引擎的集合,通过一个统一的检索界面对多个搜索引擎进行检索操作。
在进行检索时调用一个或者多个独立搜索引擎的数据库。
搜索引擎排名影响因素:
最重要五个因素a关注关键词锚文本的外部链接b链接所在页面的热门程度即外部链接的数量和质量c链接资源的多样性d标题标签中关键词的使用e链接域名的可信度前五位负面因素:
a恶意隐藏作弊b从链接中介购买链接c指向搜索引擎作弊的站点或网页的链接d基于UserAgent的伪装e频繁的服务器故障或站点无法访问综合性搜索引擎评价指标主要有:
1收录范围(学科范围,地域范围,语言范围,资源范围)2分类3检索功能与效果4对检索结果的处理5页面组织6其它功能与服务重要的中英文综合性搜索引擎Google,Yahoo,Bing,Ask,AllTheW,AltaVista,XX,搜搜,搜狗,雅虎中国中外文学搜索引擎:
谷歌学术搜索,XX国学搜索(提供目录浏览和关键词检索),Scirus数字化图书馆与传统图书馆有何区别和联系?
数字化图书馆与传统图书馆既有区别又有联系,主要体现在两方面:
一、数字化图书馆是传统图书馆服务和技术的发展和延伸,扩大了图书馆收藏文献信息的范围,文献载体向多元化方向发展,延伸了图书馆服务的时间和空间,服务内容和形式呈现多元化,适应了读者多元化,动态化的需求,有效地拓展了传统图书馆的功能。
二、传统图书馆及其馆藏是数字图书馆形成的基础和主要信息来源,数字图书馆作为一种信息环境,离不开各个具体图书馆的支持,数字图书馆相当一部分信息来源于传统图书馆纸质文献的数字化,除部分信息是由信息生产者直接以电子形式提供,构成数字图书馆的信息外,其它大部分文献信息,特别是非电子型文献必须依靠具体图书馆收集、整理、组织和提供。
第四章国内重要的综合性信息检索系统:
一、中国知网国家知识基础设施(CNKI)工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起。
最大连续动态《中国期刊全文数据库》(CAJ)中国知网数据库种类:
源数据库、合作数据库、特色文献数据库、知识仓库。
CNKI有哪些主要的数据库中国工具书网络出版总库CRFD,中国学术期刊网络出版总库CAJD,中国博士学位论文全文数据库CDFD,中国优秀硕士学位论文全文数据库CMFD,中国重要会议论文全文数据库CPCD,中国年鉴网络出版总库CYBD,中国重要报纸全文数据库CCND。
中国知网的检索:
1导航检索可从不同的角度和途径导出数据库的相关内容,提供浏览和下载;2逻辑检索a初级检索b高级检索c专业检索;3智能辅助检索是通过数据库的辅助系统,发现同义检索词、查找同名作者的其他文献、智能查找该文献的相关文献。
CNKI的检索结果可按相关度、发表时间、被引频次、下载次数等指标进行排序。
二、维普资讯网(VIP)目前成为集外文献、企业咨询、动态新闻服务、行业信息资源等多种服务为一体的科技文献资源门户网站。
VIP的主要资源有:
中文科技期刊数据库、中文科技期刊引文库、外文科技期刊数据库、中国科技经济新闻数据库、中国科学指标数据库。
维普咨询网的检索方式:
快速检索、传统检索、高级检索、期刊检索。
三、国家科技图书文献中心(NSTL)的建设宗旨是:
根据国家科技发展需要,按照“统一采购、规范加工、联合上网、资源共享”的原则,采集、收藏和开发理、工、农、医各学科领域的科技文献信息资源,面向全国开展科技文献信息服务。
其任务是代表国家利益,以资源共建共享为核心,构建国家科技文献资源战略保障服务体系。
NSTL是目前中国最大的科技文献资源收藏体系。
NSTL提供的科技信息服务1期刊浏览与检索2文献检索a检索方式普通检索、高级检索、期刊检索、分类检索。
B各种数据库的收录范围与可检字段3引文检索国际科学引文数据库(DISC)提供快速
检索、期刊检索、来源文件检索和引文检索。
4代查代借和全文传递5网络信息资源揭示服务a热点门户b开放获取期刊集成检索试用系统。
6一站式服务系统——科技信息资源与服务集成揭示系统7参考咨询服务8预印本服务9全文文献10其他服务四、中国高等教育文献保障系统(CALIS)是经国务院批准的我国高等教育“211工程”、“九五”、“十五”总体规划中三个公共服务体系之一。
其建设目标是:
建设一个以“211”工程立项高校为主体的高校书刊联合目录、七个地区级书刊联合目录库,引进和共建一体系国内外文献数据库,初步实现共同检索、馆际互借、文献传递、电子资源导航、文献协调采购、联机合作编目等功能,基本建成中国现代高等教育文献保障体系的基本框架。
CALIS的数据资源主要有:
外文数据资源和中文数据资源两大类。
CALIS的联合目录公共检索系统(OPAC)采用Web方式提供查询和浏览。
CALISOPAC选择多库分类检索,OPAC中的数据,按语种划分,可分为中文、西文、日文、俄文四个数据库;按文献类型划分可分为普通图书、连续出版物、古籍。
检索完成后,如文献太多,可进行二次检索。
五、中国科学院国家科学数字图书馆(CSDL)主要是为自然科学、交叉科学和高技术领域的科技自主创新提供文献信息保障、战略情报研究服务、公共信息服务平台支撑和科学交流与传播服务,同时通过国家科技文献平台和开展共享来支持国家创新体系其他领域的信息需求。
CSDL的主要服务项目有:
1原文传递与馆际互借2论文查收查引检索及评价3定题、专题检索服务4科技查新5在线参考咨询(问图书馆员)我国其他的综合性信息检索系统还有:
中国经济信息网和中国咨询行等。
第五章国外重要的综合性信息检索系统一、学术资源整合平台(WOK)是基于互联网建立的动态信息资源整合平台,提供自然科学、工程技术、社会科学、艺术与人文等多个领域中的高质量信息,采用“一站式”服务。
美国科技信息研究所(ISI).WOK的核心是WebofScience.WebofScience由七个数据库组成:
1科学引文索引扩展版(SCIE)2社会科学引文索引(SSCI)3艺术与人文科学引文索引(A&HCI)4科学会议录引文索引(CPCI-S)5社会科学与人文科学引文索引(CPCI-SSH)6化合物索引(IC)7全新化学反应(CCR-Expanded)WOK的其他资源1专利信息2研究信息快讯3专门学科的数据库4免费的外部数据库5科研分析资源和信息分析工具。
WOK支持的运算1布尔逻辑运算符2截词检索3短语检索
WOK的检索方式1“检索”方式2“被引参考文献检索”方式3“化学结构检索”方式4“高级检索”方式期刊引证报告数据库(JCR)通过将引文和文献数制成表格并加以综合,为评估和比较期刊提供了独特的视觉。
WOK的个性化服务:
1定制起始页2保存检索式3设置检索历史跟踪服务4设置引文跟踪5创建RSSFeed、创建并维护经常阅读和设置目录电子邮件跟踪服务的定制期刊列表等。
二、世界上最大的联机检索系统(Dialog)是世界上最大最早的专业情报检索系统。
它提供的服务项目有:
各种类型的信息检索、定题服务、原文订购等。
Dialog拥有900多个数据库,数据库类型主要有四种:
1文献型2数值型3名录字典型4全文型,涉及40多个语种。
Dialog支持的运算:
布尔逻辑、位置限制检索、短语检索、截词检索。
常用指令BST三、ScienceDirectOnLine(SDOL)是Elsevier的核心产品,是应用很广泛的全文期刊数据库。
SDOL采取浏览与检索相结合的方式1期刊论文浏览2快速检索3高级检索4专家检索(逻辑运算符、位置限制运算符)四、联机计算机图书馆中心(OCLC)是全球最大的不以盈利为目的的、维护和管理电子资源系统并提供计算机图书馆服务的会员制合作和研究组织,其宗旨是为广大用户发展对全世界各种信息的应用以及降低获取信息的成本。
FirstSearch(第一检索)现称信息第一站,FirstSearch基本组包括12个数据库,其中最具影响力的是世界上最大的,由一万多个成员馆参加的脸很编目数据库WorldCat,它包括11种资源类型,400多种语言,覆盖了从公元前1000年到现在的资料,目前有1亿多条记录。
FirstSearch的检索1基本检索2高级检索3专家检索五、Gale数据库检索系统目前提供200多个联机数据库服务,分两类1收录特定专题的文献信息,数据量不断增加,定期更新举例a传记资源中心b文学资源中心2是对世界上一些著名图书馆所珍藏的历史文献数字化后建成的数据库a数字馆藏Gale检索方式:
1基本检索2主题词检索3出版物检索4高级检索5异构跨库检索检索算符:
1逻辑算符特色算符1位置算符(“Wn”“Nn”)2范围算符六、CSAILLumina是一个多学科、多信息类型的信息服务平台。
检索方式1快速检索2高级检索3检索工具(history/combine命令式检索词表检索查看索引文档)4Browse(浏览)。
如何查找某学科有哪三大引文索引刊物:
进入JCR网站,选定学科,搜索期刊。
第六章国外专业性书目信息检索系统一、化学信息检索系统(SciFinder)三种检索模式ExploreRerferences,ExploreSubstances和ExploreReactions分别对书目数据库(CAplus和MEDLINE)化合物数据库(CASRegistry)和化学反应数据库的检索(CASREACT)。
ExploreSubstances模式:
1化学结构检索2分子式检索3物质检索。
SciFinder检索结果集合:
1浏览集合中的记录2记录去重与排序3查看相关信息二、生物学文摘(BA)BP主界面上提供6种检索方式1基本检索2高级检索3题录检索4检索工具5字段检索6多字段检索;四个主要检索词是:
关键词、作者、题名和期刊。
三、工程索引(EngineeringVillageEV2)是基于网络的信息服务系统,在应用科学、技术和工程研究领域有广泛影响。
集合的数据库有:
自建的Compendex、EngineeringIndexBackfile和ReferexEngineering,工程技术研究所(IET)出版的Inspec、报告数据库NTIS、专利数据库EiPatents等。
检索方式:
1简单检索2快速检索3专家检索4词表检索5标签检索四、美国医学文摘(Medline)是当今世界最具权威的综合性生物医学数据库之一。
其内容涵盖3种重要的纸本医学文献检索工具:
医学索引、牙科文献索引、国际护理索引。
Internet上国内最常见使用的免费医学检索网站是NLM开发的PubMed官方网站,其记录来源包括:
medlinepremedline和出版商提供的电子文献。
索引方法:
1基本检索(主题途径检索、著者途径检索、期刊途径检索、)2MeSH数据库检索。
PubMed提供概要、简介、文摘、引文、MEDLINE等五种显示检索结果内容的记录格式。
它的保存方式是:
网页格式和纯文本方式。
五、荷兰医学文摘(Embase)简称EM.检索途径和方法1检索方式(1快速检索2高级检索3药物检索4疾病检索5论文检索)2EMBASE主题词表检索3期刊检索4作者检索5Scirus搜索引擎六、教育资源信息中心(ERIC)是世界上最大的访问量最大的教育数据库。
包括两部分内容:
教育资源和当前教育期刊索引。
ERIC的检索方法;1初级检索2高级检索3ERIC叙词表检索七、公共事务信息数据库(PAISInternational)检索方法:
1快速检索2高级检索(菜单式检索、命令行检索)publicaffairsinformationservice。
涉及的方面:
公共政策、社会政策、社会科学书目检索工具。
按出版物文献、图表、学者、网站信息分别列出检索结果。
八、图书情报学专业数据库(LISA和LISTA)1图书馆学与情报学文摘(LISA)2图书馆学与信息科学与技术数据库(LISTA)(基本检索、高级检索、辅助检索功能)
九、法律信息检索系统(LexisNexis)LexisNexis公司数据库产品有:
1律商联讯2法律数据库3国会大全4统计大全5环境大全6学术大全等。
LexisNexis在线服务数据库主页特点是无检索框。
主页上资源分为左右两列,左列是一次文献资源,右列是二次文献资源为主。
检索方式1search2researchtasks3searchadvisor4getaDocument。
位置限制检索W/N(1~255)关键词距离不超过n个单词;w/s限定关键词出现在同一个句子中;w/p限定关键词出现在同一个段落中;W/SEG关键词出现在文章同一部分;PRE/N关键词同时出现在文件中,第一个字的位置必须比第二个字超前n个单词。
第七章internet上多媒体信息的检索多媒体信息检索的概念:
多媒体信息的特征元数据提取、索引建库,相似度匹配运算,识别和返回用户所需信息,通过与用户之间的反馈,不断优化、调整显示结果。
多媒体信息检索方法和原理:
1基于文本原理是依据人工分析判断,选择记录能反映信息内容特征和物理特征的关键词,建立多媒体信息的索引和标识,用户检索信息时,系统按关键词匹配查找相识的多媒体文件。
其优点是便于普及使用,缺点是人们选择关键词时存在较强的主观性。
2基于内容多媒体信息检索系统Content-BasedRetrieval(CBR)原理:
提取特征并进行量化,表示成向量空间,建立索引库,将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算。
优点具有较强的客观性,缺点是不便于大众化使用。
基于文本的搜索有:
Google图片搜索、音乐搜索与视频搜索,Yahoo音乐搜索与图片搜索,YahooVideoSearch,XXmp3、图片与视频搜索基于内容的多媒体信息检索一种新的检索技术,是对多媒体对象的内容及上下文语义环境进行检索。
基于内容的多媒体信息检索为什么不能普及网络资源:
多媒体信息数据量大,特征空间维度高,用户与系统信息存在语言鸿沟及对数据解释缺乏一致性等问题。
常用多媒体文件特征:
①图像:
颜色、纹理及时空关系等②视频:
对象运动特征、颜色和光线变化等音频:
时域、频域、时频、短时帧和音频特征等搜索图片、图像格式:
image:
文件名搜索多媒体信息格式:
media:
text基于内容的图像检索:
原理分析图像的内容,提取颜色、形状纹理及时空关系等信息,建立
图像的特征索引库,而后将用户的检索提问与特征索引库进行匹配计算,返回检索结果。
QBIC:
QueryByImageContentIBMAlmaden研究中心开发的第一个商用基于内容的图像及视频检索系统;提供对静止图像及视频信息基于内容的检索手段;系统结构及所用技术对后来的视频检索有深远的影响VisualSEEK(WebSEEK):
主要特点是用到了图像区域的空间关系查询和直接从压缩数据中提取视觉特征其它:
TinEye、Titomo、VAST(_视觉语义图像查询系统)、ImageRover、Scour、AmazingPictureMachine、Lycos、ImageSuurfer基于内容的视频检索:
通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段,作为检索的基本单元,在此基础上进行代表帧和动态特征的提取,形成描述镜头的特征索引,镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据。
视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。
informedia卡内基·梅隆大学的informedia数字视频图书馆系统卡内基·梅隆大学的informedia数字视频图书馆系统Openv:
以视频搜索技术为核心的视频媒体平台可检索国内多家主流电视台的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 重点 复习资料
![提示](https://static.bdocx.com/images/bang_tan.gif)