整理信息检索学习笔记.docx
- 文档编号:979194
- 上传时间:2022-10-14
- 格式:DOCX
- 页数:34
- 大小:44.39KB
整理信息检索学习笔记.docx
《整理信息检索学习笔记.docx》由会员分享,可在线阅读,更多相关《整理信息检索学习笔记.docx(34页珍藏版)》请在冰豆网上搜索。
整理信息检索学习笔记
第一章信息检索的基础理论
第一节基础概念
一、信息概述
(一)信息的定义:
信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。
世界三大基本要素:
信息物质能量
(二)信息的特征
1.客观性
①信息来源于物质,又不是物质本身;它从物质的运动中产生出来,又可以脱离物质相对独立地存在。
②信息业来源于精神世界,但又不限于精神的领域。
③信息是具体的,并且可以被人所感知、提取、识别,可以传递、存储、变换、显示、检索和利用。
2.普遍性3.可存储性4.可传递性5.扩散性6.共享性7.时效性
(三)信息的功能
1.经济功能
①运用信息可以使非资源转化为资源创造财富。
②使用信息取代劳动力、资金、材料等资源创造财富,实现经济效益倍增。
③直接让信息作为商品在市场流通中创造财富。
④通过信息进行科学决策,减少失误,创造财富。
2.管理与协调功能
5M资源:
人、财、物、设备、管理办法
信息的管理与协调功能在组织活动中的作用:
①传递整个组织的运行目的,有效管理5M资源。
②调节和控制物质流和能源流的数量、方向和速度。
③传递外界对系统的作用,保持组织的内部环境稳定。
3.选择和决策功能
4.研究与开发功能
二、知识
1.知识的概念:
知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,是人类对自然界、人类社会以及思维方式与运动规律的认识。
2.知识的类型
①显性知识和隐性知识。
②实体知识和过程知识。
③核心知识和非核心知识。
三、情报
1.情报的概念:
情报是具有特定传递对象的特定知识货有价值的信息。
2.情报的特征
①动态性②按特定的方式传递③为特定目的服务的④常常有一定的时效性和机密性
3.情报的类型
零次情报:
私人笔记、手稿、设计草图、会议记录、口头言论等。
一次情报:
调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。
二次情报:
书目、索引、文摘等
三次情报:
综述、专题评论、年度总结、研究进展报告、数据手册、专业年鉴等。
四、信息、知识和情报之间的关系
知识是人的大脑通过思维重新集成整合的、反映事物运动规律的系统华信息,是信息中最有价值的部分;情报是具有特定传递对象的特定知识或有价值的信息,其中一部分在知识之内,另一部分则在知识之外的信息之内。
因此,从逻辑上看,信息、知识、情报三者的概念之间是相容关系,具体来说,信息与知识、情报之间是属种关系,信息是属概念,知识、情报是信息之下具有交叉关系的种概念。
五、信息资源
(一)信息资源的概念
1.广义信息资源的定义:
人类社会活动中积累起来的信息、信息生产者、信息技术等信息活动要素的集合。
①人类社会经济生活中经过加工处理使之有序化并大量积累后的有用信息的集合。
②为某种目的而生产有用信息的信息生产者的集合。
③加工、处理和传递有用信息的信息技术的集合。
2.狭义信息资源的定义:
人类社会经济活动中经过加工处理,使之有序化,并大量积累后的有用信息的集合。
(二)信息资源的特征
1.信息资源的一般特征
①作为生产要素的人类需求性②稀缺性原因:
一、信息资源的开发需要相应的成本;二、在既定的技术和资源条件下,任何信息资源都有一固定不变的总效用,但它每次被投入经济活动中去时,资源使用者总可以得到总效用中的一部分并获得一定的利益,随着被使用次数的增多,这个总效用会减少,当减少到零时,该信息资源就不再具有经济意义。
③使用方向的可选择性。
2.信息资源的特殊性
①共享性②时效性
(三)信息资源的类型
1、体裁信息资源:
以人体为载体并能为他人识别的信息资源
2、文献信息资源:
以文献为载体的信息资源
3、实物信息资源:
以实物为载体的信息资源
4、网络信息资源:
从计算机技术、通信技术、多媒体技术相互融合而形成的网络上可查到的资源,包括①非正式出版信息②半正式出版信息③正式出版信息
第二节信息检索概述
一、信息检索的概念:
广义信息检索包括信息存储和信息检索两个过程,指将信息按一定方式收集、组织和存储起来,并根据信息用户的需求找出所需信息这一过程和技术,又称“信息存储和检索“(InformationStorageandRetrieval)
狭义信息检索,不包括信息存储过程,仅指依据一定的方法,从已经组织好的信息集合中,查找并获取特定需求的信息这一过程。
二、信息检索的类型
1、根据检索内容或检索对象不同,可将信息检索分为文献检索、数据检索和事实检索。
1)文献检索(DocumentRetrieval):
指以文献为检索对象的信息检索,传统上是信息检索的核心部分
2)数据检索(DataRetrieval):
指以各种数据为检索对象的检索
3)事实检索(FactRetrieval):
指以各种史实资料、研究结果和现状为检索对象的检索过程
2、按组织方式,可有全文检索、超文本检索和超媒体检索
1)全文检索(Full-textRetrieval):
将存储于数据库中的整本书、整篇文章中的任意内容信息查找出来的检索
2)超文本检索(Hyper-textRetrieval):
是对每个结点中所存在的信息以及信息链构成的网络中信息的检索。
3)超媒体检索(HypermediaRetrieval):
是对存储的文本、图像、声音等多种媒体信息的检索。
3、按检索设备分,可分为手工检索和机器检索
1)手工检索(HandRetrieval):
是人直接用手、眼、脑组织、查找印刷型文献的检索
2)机器检索(MachineRetrieval):
又称计算机检索,是通过机器对已经数字化的信息按照设计好的程序进行查找和输出的过程,可分为脱机检索和联机检索。
三、信息检索的发展趋势
1、统一的检索界面2、主动的信息推送服务3、多种检索模型将融为一体4、可视化技术实用化5、检索职能化
第三节信息检索原理
一、信息检索基本原理:
信息检索包括信息存储与信息检索两个过程。
信息存储过程中,信息标引人员分析原始信息,找出能代表文献信息的特征,对文献信息进行标引,对照检索语言将其外部特征和内容特征转化为一定的标引标识,再将这些标识按一定的顺序编排后纳入检索系统,提供多种检索途径;而在信息检索过程中,检索人员全面详尽地分析课题,找到其特征形成检索提问,再将这些提问与检索语言相对照形成检索提问标识。
信息检索的基本原理:
检索提问标识与存储在检索系统中的标引标识进行比较,二者完全匹配或信息标引中的标识包含了检索提问中的标识,即为检索命中,具有该标识的信息就从检索系统中作为检索结构输出。
二、计算机信息检索的原理
1、计算机信息检索的实现过程:
用户对检索课题加以分析,明确检索范围,弄清楚主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。
分为两个过程:
一是信息存储,即按一定的规则将信息进行加工、赋予特征标识,并将这些标识按一定的顺序编排后纳入检索系统;一是信息检索,就是用户根据自己的检索要求向系统发出含有提问特征的检索式,系统自动地将自己存储的相关信息集合的标引标识及其逻辑组配关系与之类比、匹配,给出与特征标识相符的记录。
2、计算机信息检索的实现条件:
计算机、通信网络、检索终端设备和数据库
3、计算机信息检索的发展
1)脱机批处理检索阶段2)联机检索阶段3)光盘检索阶段4)网络化检索阶段
4、计算机信息检索的服务方式
1)回溯检索2)定题检索3)随机问答4)联机订购
第四节检索语言
一、检索语言的概念:
一般指文献标引和检索所使用的一种专门语言,是用以表达概括文献信息特征和检索课题内容特征的概念及其相互关系的一种概念标识系统,即在存储时用以描述文献信息的内容和外部特征,而在检索时则用以表达提问的语言。
二、检索语言的类型
一是按检索语言的规范化程度来划分,可分为规范化的人工语言和非规范化的自然语言;二是按检索语言的词汇组配方式来划分,可分为先组式语言和后组式语言;三是按描述文献信息内容特征来划分,可分为分类语言和主题语言;四是按词汇的类型来划分,可分为关键词语言、单元词语言、标题词语言和叙词语言等。
1、人工语言和自然语言
1)人工语言:
又称程控语言,它是根据文献信息检索的需要,由人工采用规范词而创建的一种受情报检索控制的语言。
2)自然语言:
自然语言检索用词是取其自然形态,从信息内容本身抽取,不受人工控制,主要依赖于计算机自动抽词技术来完成,但是需要辅以人工自由标引,即不依据词表的标引方法,使用非规范词或称自由词。
3)人工语言与自然语言的比较:
人工语言的查全率、查准率比较高,人工语言的检索效率要高于自然语言,但是人工语言是基于印刷型文献资源产生的,对标引来说,工作量大,成本高,对文献信息检索来说,用户不容易掌握。
而自然语言则不然,对标引来说,主要由计算机检索系统自动完成,具有灵活性、新颖性和专指性,并且检索点多,管理和维护成本低;对文献信息检索来说,用户很容易掌握。
但是由于目前计算机抽词技术还无法达到从自然语言中抽取最准确并能够表达信息资源内容的词,无法自动规范自然语言,无法指示概念之间的关系,缺乏对词汇的控制能力,因此检索效率比较低。
2、先组式语言和后组式语言
1)先组式语言:
是指在检索实施前已事先组配好的一种检索语言,有较好的直接性和专指性,但灵活度查,如标题词语言。
2)后组式语言:
是指在检索实施前未事先组配好的、以单元词等形式出现的一种检索语言。
3、分类语言和主题语言
1)分类语言:
分类语言是按学科范畴和知识之间的相互关系列出类目,并用数字、英文字母对类目进行标识的一种检索语言。
2)主题语言:
又称主题词语言或主题词检索语言,由主题词汇构成,也就是将自然语言中的名词术语经过规范化后直接作为文献信息标识,因此又称主题词表、主题词语言或主题法,如关键词语言、单元词语言、标题词语言、叙词语言等。
①关键词语言属于自然语言②单元词语言,属于人工语言,又称元词,元词语言是后组式语言③标题词语言是一种先组式规范语言,属于人工语言。
如《工程索引》,用标题词检索④叙词语言是一种后组式规范语言,也属于人工语言。
第五节检索系统与数据库
一、检索系统
1、检索系统的概念:
检索系统是为满足信息需求而建立的,具有收集、组织、存储和查询等功能的文献信息资源和相关设备设施的总称,由信息资源库、技术设备、规则体系和检索人员组成,其中信息系统的主题部分是信息资源库。
2、检索系统的类型
1)按加工手段和技术设备的不同,可将检索系统分为手工检索系统、机械检索系统、计算机检索系统
2)按载体形式不同,可分为卡片式、书本式、缩微式、磁性材料式等检索系统
3)按著录格式不同,可将检索系统分为目录、题录、文摘、索引、全文检索系统。
3、计算机信息检索系统的组成:
信息选择子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统(信息检索系统的用户接口常采用命令检索、菜单检索、图像检索及超文本检索等方式)、提问处理子系统(本模块主要由检索程序构成,执行过程中可完成以下操作:
接受提问、提问校验、提问加工、检索)组成。
信息选择子系统:
任务是根据系统的目标和服务对象的需要,确定数据收集范围,确定数据收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的数据。
二、数据库
1、数据库概述
数据库:
至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。
2、数据库的结构
1)数据库一般结构:
①字段、记录、文档。
②顺排文档和倒排文档③基本索引、辅助索引
2)从数据库用户的角度看,数据库的结构可分为集中式、分布式、并行式、异构式数据库结构,客户机/服务器结构和浏览器/服务器结构。
3、数据库的特点:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 整理 信息 检索 学习 笔记