1-检索式编写技巧.ppt
- 文档编号:30842771
- 上传时间:2024-01-31
- 格式:PPT
- 页数:101
- 大小:3.14MB
1-检索式编写技巧.ppt
《1-检索式编写技巧.ppt》由会员分享,可在线阅读,更多相关《1-检索式编写技巧.ppt(101页珍藏版)》请在冰豆网上搜索。
检索式编制技巧,检索:
有关地震和海啸的相关研究,(earthquak*ortembl*orseism*orearthshock*orearthdin*)and(tsunami*orseismicseawaveorgroundseaormegatsunamiortidalwave*),分析研究课题,明确检索要求选择检索工具(或数据库)与检索手段确定检索途径与拟定检索式实施试检索操作检索结果的评价与获取原始文献一个好的检索式是最终实现检索策略是否达到预想结果的具体表现形式。
文献信息检索的基本步骤,检索式的定义百度百科定义:
指搜索引擎理解和运算的查词串,由关键词、逻辑运算符、搜索指令(搜索语法)等构成。
关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询要求从不同的角度对关键词进行搜索限定。
逻辑运算符是表达检索词之间逻辑关系和限制关系的运算符号,它是复合检索式中必不可少的构件。
如何编制检索式,检索词的选择;运算符的使用;编制检索式。
关键词与主题词关键词即是“自由词”,是信息的提供者各自采用的不经过一定规范化限定的词。
检索操作方便,但其专指度差,常需用较高的逻辑匹配、截词符等技能。
主题词即指以自然语言中优选出的,经过规范化处理后的名词术语。
检索操作一般需将习惯使用的自然语言与各数据库自编的主题词表对照后方能使用,但专指度较高。
检索词的选择技巧?
关键词的选择,应以课题提供的关键词为参考,选定的关键词应符合主题;确认关键词是否为规范词;并应列出常用中外文同义词、缩写词,以及核心关键词的上下位类词。
应充分利用词表、辞海、术语标准、词典等工具书,以及从已,检出的文献中,复核、筛选、补充、精炼检索用词。
关键词的选择应注意,
(1)应覆盖检索主题
(2)寻找常用同义词,(3)词的全称、简称及缩写,(4)必要时应向上下位类词扩检(5)合理使用词组或短语(6)规范词的利用,1.勿忘检索词的全称、简称、俗称与英文缩写,项目名称:
乙型病毒性肝炎的中医药研究篇名=乙型病毒性肝炎*(中医药+中药)乙型病毒性肝炎的同义词:
乙型肝炎乙肝HB篇名=(乙型病毒性肝炎+乙型肝炎+乙肝+HB)*(中医药+中药),项目名称:
耐高温粘接剂的研究,篇名=高温*粘接剂粘接剂的同义词:
胶粘剂、粘固剂、粘合剂、胶结剂、粘结剂、粘胶剂、粘接剂、粘着剂、黏合剂、胶合剂篇名=高温*(粘接剂+胶粘剂+粘固剂+粘合剂+胶结剂+粘结剂+粘胶剂+粘接剂+粘着剂+黏合剂+胶合剂),初级检索高级检索,搜索同义词方法,
(1)利用数据库的同义词选择功能
(2)利用搜索引擎寻找同义词(3)从数据库检索结果中寻找同义词(4)利用自己的专业知识(5)利用自己平时积累的知识,2.注意检索词的上下位类扩展,项目名称:
电阻焊在汽车生产中的应用篇名=电阻焊*汽车*生产电阻焊F点焊缝焊凸焊对焊篇名=(电阻焊+点焊+缝焊+凸焊+对焊)*(汽车+机动车+客车+轿车)*生产,项目名称:
苯胺的烷基化反应催化剂研究,文摘=苯胺*烷基化*催化剂烷基化AlkylationF甲基化Methylation乙基化Ethylation文摘=苯胺*(烷基化+甲基化+乙基化)*催化剂,课题
(1)“加氢裂化防污垢的开发与应用研究”,将“加氢裂化”与“防污垢”组配,结果不理想。
概念向上位“石油加工与石油炼制”的概念扩大,再与“防垢剂”组配,完成了课题的要求。
课题
(2)碳4、碳5馏份工艺情况,(C4orC5)anddistillat*,上位:
Petroleumandproduct*anddistillat*下位:
(Buteneor1-3butadiene)anddistillat*,3.注意外来词的译写变化,波尔兹曼54欧几里德290玻耳兹曼109欧几里得197玻尔兹曼214欧基里德5波耳兹曼12欧几理德3波尔茨曼2欧氏几何135Boltzmann659Euclid351注意:
上例中用英文名检索出的中文文献最多!
注意检索词的词义变化,汉词与英语等西方语言的词汇相比较:
汉词的字与词界线比较模糊,一个字也许就是一个词,英语基本上没有这种现象。
汉词无固定的词头、词尾和性、数的变化。
而英语构词时这种情况很多。
汉语的构词一般与语义有关,一个词后加上一个字就派生出另一个新的词,而英语的情况与此有很大的不同。
4.深入课题寻找检索词项目名称:
石油工业的废水处理篇名=石油工业*(废水+污水)*处理,篇名=石油*(废水+污水)*处理,主题=石油*篇名=(废水+污水)*处理,石油工业,燃料工业之一。
从勘探、开采到加工石油一系列过程是由石油部门所完成。
为国民经济各部门提供各种燃料油,包括天然石油和油页岩的勘探、开采、炼制、储运等生产单位。
重新选择检索词将“石油工业”扩展为“石油”、“油田”、“采油”、“炼油”。
进行二次检索,示例:
有关“企业知识产权研究”,检索式检索结果(*表示AND,+表示OR,限定篇名字段)(2009-2011)1企业知识产权191篇(准确度最高漏检大)2企业*知识产权404(漏检率较高)3(企业+集团+公司)*知识产权466(适合综述性文献)4(企业+集团+公司)*(知识产权+专利权520(查全率查准率较高)+商标权+著作权+名称权)5(企业+集团+公司)*(知识产权+专利权)137(缩小范围效果最佳),5.少用或不用对课题意义不大的词,不用词义泛指过大的词,如展望、趋势、现状、近况、动态,应用、作用、利用、用途、用法,开发、研究、影响、效率。
少用词义延伸过大的词,若一定要用,必须将它们尽可能全地用“或”组合起来,以免漏检,如:
“制造”制备(preparation)、生产(manufacture)、合成(synthesis)、加工、工艺;“提炼”精炼、提取、回收、利用、萃取;“性能”Property(ies),Performance,Behavior。
6.多主题概念的课题应以“简”为主,1、课题有A、B、C、D、E、F等主题概念进行组配,其中“C”词建库人员未从原始文献中挑选出来作为标引词时,该“C”主题词则表现为零,则整个检索式等于零。
如:
课题“利用基因工程的手段提高植物中淀粉含量”,基因工程*淀粉基因*淀粉“最专指面优先”(MostSpecificFaceFirst)方法,7.少用无法定性定量的词,课题:
冷、温复合挤压连续成形技术(冷挤压or温挤压)and连续and成型(冷or温)and挤压and连续and成型冷=常温以下温=45C600Cor800C处理结果:
取消:
冷、温二词深化处理:
增加:
挤压对象的词。
如塑料、金属等词或其他如有助于限制范围的有效实词如:
挤压时用的润滑材料:
石墨。
切忌:
把整个题名输入到检索框中,如:
网络数据库的安全性研究,应以课题提供的关键词为参考,根据检索要求复核、筛选、补充、精炼检索用词。
选定的检索词应符合检索主题;确认检索词是否为规范词;并应列出常用中外文同义词、缩写词,以及核心词的上下位类词。
应充分利用词表、辞海、术语标准、词典等工具书,以及从已检出的文献中,扩展检索用词。
例如有人提出检索真空碳粉包装机方面的文献,VacuumPacker*orVacuumpack*machine*orVacuumpack*,equipment*,(VacuumPacker*orVacuumpack*machine*orVacuum,pack*equipment*)andcarbonpowder*,(VacuumPacker*orVacuumpack*machine*orVacuum,pack*equipment*)andpowder*,运算符的使用技巧?
搜索指令的使用技巧?
在进行计算机检索时,有时有一些比较复杂的课题,如:
“GPS在建筑中的应用”,既涉及GPS,又涉及建筑,这时候要编制出满足要求的计算机检索式,就必须用到运算符,它是机检的基础。
布尔逻辑、截词检索、字段检索,位置算符、其它。
1布尔逻辑检索(BooleanLogicRetrieval)逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,即与、或、非三种运算符号,用它们可以表示概念之间的逻辑关系。
2位置算符(ProximityOperators)位置算符是表示检索词之间位置关系的一种运算符。
由于英文对一句话有多种表达方法,写法可能不同。
如:
“GPS在铁路桥研究中的应用”这个课题,用英文表达可能是“UsingofGPSinRailwayBridge”,也可能是“UsingofGPSinBridgeofRailway”,因而可能编制出这样的检索式,GPSAND(Railway(2N)Bridge)我们可以通过位置检索提高检索的准确率。
8,位置算符,位置算符SAMEunivtokyoANDdeptphysunivtokyoSAMEdeptphys,IBMSAMENYIBMANDNY,IBMResCorp,YorktownHeights,NY10598USACornellUniv,DeptMatSci&Engn,Ithaca,NY14853USA,IBMCorp,AlmadenResCtr,DivRes,SanJose,CA95120USA,3截词算符(Truncatingoperators)在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。
如果检索时将这类词全部输入进去,会增加检索时间和费用,采用截词法可解决这一问题。
所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。
检索中计算机会将所有含有相同部分标识的记录全部检索出来。
常用“?
”、“*”符号表示。
有限截词即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。
如:
输入computer?
表示有0-1个字母变化,可检出computer和computers.输入stud?
表示截断处有0-3个字母变化,可检出study,studies,studied,studing.,无限截断在检索词后加一个“?
“,表示该词后可加任意个字符。
使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。
如:
computer?
可检出computers,computering,computered,computerization.,中间截断在检索词中间加一个或几个?
号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。
如:
输入wom?
n可检出woman,women,各种算符在数据库中的实际应用,位置算符1)EINEARBridgeNEARPiling*表示这两个词要彼此接近,前后顺序不限W/nPig*W/2pine*表示两个词的距离不能超过n个单词AdjChanneladjtunnel表示含有这两个词,两个词相邻,位置一定2)ISIProceedings用同句算符(SAME):
如Channelsametunnel,表示channel和tunnel出现在同一句子中才符合检索条件。
3)Elsevier:
ADJ表示两词相邻,前后顺序固定,与“词检索”的结果相同;NEAR或(N)表示两词相邻,中间可插入少于或等于n个单词,前后顺序可以发生变化,如果不使用(N),系统默认值为10。
4)PQDDW/n两词间距小于n个单词,且前后位置任意Pre/n两词间距小于n个单词,且前后位置一定,截词符或通配符,如:
CSAISIProceedingsProQuestCA用通配符“?
”和截词符“*”输入“patent*”,可以检索到patent、patents、patented等,(无限截断)输入wom?
n,可以检索到woman和women。
输入“fib?
”,可检索到fiber和fibre。
(有限截断),4括号检索(Parentheses)用于改变运算的先后次序,括号内的内容做优先运算。
用“()”可以表示优先级。
如比较(GPSORGIS)ANDChinaGPSORGISANDChinaEI中的表示方法:
RelevanceAND(AalbersbergWNAU)OR(coolWNAU),逻辑算符的先后次序,当使用多个运算符时可用扩号决定优先顺序,一,个检索式中最多可使用50个运算符,NEAR/x,SAME,NOTAND,OR,(earthquak*ortembl*orseism*or,earthshock*orearthdin*)and,(tsunami*orseismicseawaveorgroundseaormegatsunamiortidalwave*),搜索指令1字段限制检索组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。
字段限定检索,字段检索即指定检索词出现的字段,包括前缀限制符,和后缀限制符。
常用前缀限制符:
AB、AU、ISSN、SO、KW、LA、PY,、TI;后缀限制符将字段代码放在检索词后。
EG:
SONature,TS=“electromagneticfield”,搜索引擎常用字段限定检索,Title,Subject,Keywords,Summary等;Image,Text、,url、link等,site:
C查找名为C的WWW服务器。
image:
mao.jpg查找名为mao.jpg的图像文件。
url:
datamining.html查找含有,datamining.html的URL,注意:
作者检索的缩写形式、机构定义在SCI中,姓(全称)空格名(首字母并且连写)如:
LIDR;GONGJY;在EI中,姓名就比较复杂,一般有以下几种情况:
姓名都用全称(姓前名后);姓全称名缩写(或名之间用连字符);名前姓后全称机构检索中,SCI中有多个作者单位,在同一字段中,EI只收入第一作者的单位。
多字段检索时要选所有字段(allfield),2短语检索(phrasesearch)即精确检索短语用“”表示,检索出与“”内形式完全相同的的短语,以提高检索的精确度和准确度。
ExactSearch精确检索,词组检索,如果希望精确地检索某个短语,应将其放置在引号内。
范例:
“stemcell”Topic:
electromagneticfieldTitle:
MathematicalmodelofelectromagneticeliminationintubulewithhighfrequencymagneticfieldTopic:
“electromagneticfield”Title:
Reproductionoflightningelectromagneticfieldwaveformsbyengineeringmodelofreturnstroke,3自然语言检索(naturallanguagesearch)直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。
这种基于自然语言的检索方式又被称为“智能检索”,适合不太熟悉网络信息技术的人员使用。
支持自然语言检索的有中文的悠游,英文的AltaVista,Excite,Infoseek,HotBot,AskJeeves等,4模糊检索(fuzzysearch)又称概念检索。
当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。
比如:
我们查找“查询”一词时,模糊检索会反馈来包含了“查询”、“查找”“查一查”、“寻找”、“搜索”等内容的网址。
反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。
现在大多数搜索引擎都有这种功能,只是模糊的程度不同。
5字母大小写检索如果用户的检索式用小写字母表示,搜索工具既匹配大写又匹配小写,如:
china(瓷器),china(中国);如果用大写字母表示,搜索工具认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同的结果,如:
china,只检索出china。
AltaVista等搜索引擎支持区分大小写的检索。
注意自然语言检索、模糊检索和区分大小写的检索是网络检索所特有的。
实际检索中,往往将多种检索技术混合使用。
如:
查找标题中含有“网络营销”的资料,它的计算机检索提问式(表达式)可以是:
TI(WebORWWW)ANDmarket*,Tips:
几乎所有的检索系统都支持“”、布尔逻辑、截词和字段检索,使用的截词和字段表示方法不尽相同,或各自有一些特殊的检索技术;,WOS:
ultraso*Irradiat*and(nanocomposite*or,(nanoparticle*Composite*),Dialog:
ultraso?
()Irradiat?
And(nanocomposite?
Or,nanoparticle?
()Composite?
),部分数据库支持位置算符,以上技术主要适用于西文数据库,检索式的编制技巧?
将关键词和运算符及检索指令科学组合,就可以编制成一个好的检索式,这也是最终实现检索策略是否达到预想结果的具体表现形式。
检索效果的评价,查全率与查准率是检索质量的两个重要的评价指标。
查全率(recallratio)=检出的相关文献量/检索系统中相关文献总量即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。
查全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到100%的查全率是不可能的,在网络条件下尤其如此。
查准率(precisionratio)=检出的相关文献量/检出的文献总量。
指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
准确率高说明你检出的东西都是有用的东西。
一般地说,很少能达到100%的查准率。
在查全与查准两个方面一般难以两全,为了获得很多有用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。
在计算机检索中,一般认为查准率为6070、查全率为4060是较为理想的。
在一个具有1000篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。
经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率、误检率和漏检率。
查全率=30/50*100%=60%查准率=30/60*100%=50%误检率=(60-30)/60*100%=50%漏检率=(50-30)/50*100%=40%,条件、目标?
查准率,查全率,1.二者相背,2.目标优先,3.现有条件,1、影响查全率的种种因素如:
检索词是否已扩大到穷尽;是否合理应用逻辑“或”来优化检索;是否对课题检索策略作了必要的扩大。
2、影响查准率的因素如:
是否尽量选用了专指度较高的检索词;是否尽量采用了逻辑“与”逻辑“非”和位置算符进行优化检索;是否对所检课题作了范围的有效限制等等。
误检或漏检原因,1过分强调专业知识课题“聚氨酯泡沫塑料的工艺”选“聚氨酯泡沫塑料”这一多元词作为检索词“聚氨酯and泡沫塑料”,多元词和单元词比较,不同字段的比较:
检索结果表明:
检索词的选择、逻辑算符的使用、同义词近义词的扩展、检索字段的选择等变化,对检索结果数量的多少、检索的查全和查准有很大影响。
2同义词和异称词产生的漏检情况,没能将同义词和异称词运用全。
如:
设备apparatus,equipment,device汽车car,automobile,vehiclePVC聚氯乙烯、PVC塑料偏重于大概念还是偏重于小的概念。
如:
燃料有固体燃料、液体燃料、气体燃料等。
具体一点有煤、油、煤气、天然气等等。
植物油有蔬菜油、种子油等。
具体些有玉米油、花生油、棕榈籽油等等。
3位置算符造成的漏检,查找“高压反应设备”方面文献,将检索式编制成High()pressure()reacting()device”,检索式应是“High()pressureandreact?
and(deviceorapparatus,orequipment)”。
检索工型钢,中文:
工型钢英文:
HSteel,检索:
HandSTEEL,H(W)STEEL,H(W1)STEEL,4检索词本身的多义性导致的误检,如:
海绵海洋里的多孔类动物、泡沫塑料、泡沫橡胶等。
扩大检索范围的策略是:
(1)去掉一些次要的、崭新的概念,以及专指度很高或没有把握的某些主题概念
(2)充分利用逻辑“或(OR)”将某些主题概念组配起来,以扩大检索范围。
(3)缩小检索策略时,增加一些主题概念加以限制,用逻辑“与(AND)”进行组配。
城市生活污染研究,关键词:
城市(都市、城区)生活污染(生活污水、生活垃圾、电磁辐射污染等)检索式(城市or都市or城区)and(生活污染or生活污水or生活垃圾or电磁辐射污染),新型的自动化数字制图软件的开发与利用主题词:
A:
机助制图系统;B:
系统软件;C:
软件技术;D:
自动化测图组配词:
E:
开发;F:
应用检索式:
(AORD)AND(BORC)AND(EORF),专题测图用于土地利用制图和植被制图主题词:
A:
专题测量仪;B:
土地利用制图;C:
植被制图;D:
测绘仪器;E:
地图制图;F:
专题制图检索式:
(AORD)AND(BORCOREORF),了解有关国内近十年来室内装修污染方面的研究,关键词:
室内、装修、污染同义词或近义词:
室内(住宅、居室、房屋)污染(放射性、化学、氡气、甲醛、苯等),实例分析与说明,课题一GIS技术的可视化研究,课题分析:
二十一世纪是一个信息大爆炸的时代,随着“信息论”,“控制论”及“认知论”等理论的产生,作为一门古老的学科的地图学也在这些新兴理论的指导下,在这个信息时代产生了新的发展点,“数字地球”的提出为地图科学提出了更新更高的要求,GIS作为处理地理信息的一种技术,应运而生。
GIS是一种采集,加工,分析,访问及表达空间数据的信息系统。
作为数据本身是抽象的,不易直观接受的信息,因此研究如何对数据进行加工和可视化表达,对于用户来说是十分必要的。
目前的GIS可视化的研究正方兴未艾,对DEM,DTM和DLG等数据模型特别是DEM的研究进展飞速,而三维可视化的表达方式又成为其中最热门的方向,通过DEM生成的等高线,地貌晕渲土,三维透视景象,三维地形漫游及交互式三维可视系统在地图学界开始发挥其强大的效用,并将在GIS技术中占有三分天。
数字高程模型(DEM)作为数字地形模拟的重要成果已经成为国家空间数据基础设施(NSDI)的基本内容之一,其相关学科有数据库,软件工程,遥感与航测等。
在不久的将来,随着虚拟现实技术与GIS的融合,必然为地理信息学科带来翻天覆地的变化。
检索关键词与表达式,中文关键词:
地理信息系统或GIS(上位)数字高程模型,可视化,三维,虚拟现实(下位)基本表达式:
关键词=(地理信息系统ORGIS)AND(可视化)AND(三维OR虚拟现实),英文TopicWords:
GISorGeographyInformationSystem3D,DEM,VR,visualizationBooleanExpression:
kw=GISANDvisualizationAND(3DORDEM),课题二移动通信定位技术的研究和应用,课题分析:
随着移动通信的发展,人们之间的联系更为紧密,生活也更加方便,手机等移动通信工具已经成为生活中不可缺少的伙伴。
科技的发展速度是难以估量的,如今,单纯追求语音服务的时代已经逝去,人们越来越“贪婪”,希望自己的手机不仅能打电话发短信,而且要能听歌,玩游戏,大规模传送数据这些便是移动通信的“新课题”,它摆脱了原有的束缚,向生活的每个角落
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 检索 编写 技巧