信息检索中文版3140Word格式.docx
- 文档编号:19710206
- 上传时间:2023-01-09
- 格式:DOCX
- 页数:17
- 大小:106KB
信息检索中文版3140Word格式.docx
《信息检索中文版3140Word格式.docx》由会员分享,可在线阅读,更多相关《信息检索中文版3140Word格式.docx(17页珍藏版)》请在冰豆网上搜索。
PHOAKS(知无不言,言无不尽)
•对于推荐的URL
•把每一个消息中提到的URL作为推荐。
——不算URL的头文件和引用部分。
——不使用太多的规定到消息组。
——不计算通告和广告中的URL
计算每个URL中不同推荐人的数量。
•推荐基于不同的推荐人的数量。
187合作筛选(5)
Fab(http:
//fab.stanford.edu)
•结合基于内容的建议和合作的建议。
——保留每一种方法的优点而避免每一种方法的缺点。
•用户必须明确的把每一个推荐文档分为7个等级。
•这个等级是用来更新用户的信息,排列更高的文档并推荐具有相关度的信息给用户。
188合作筛选(6)
DirectHit()(由Teoma得到())
•作者控制的搜索引擎对编辑控制目录。
•DirectHit针对实现常规搜索引擎的广度,这种搜索引擎具有通过用户控制方法的编辑控制目录的准确性。
•DirectHit使用用户浏览文档的时间和其他行为的信息来确定有用的文档的点击数,并使用合作筛选,来帮助寻找新的查询文档。
189Web数据库的检索途径
目前搜索引擎低效率的另一个原因:
•关键字-对于更准确地表示用户信息来说查询语言过于简单。
在很大的程度上,更是没有利用现有的信息来指定用户查询:
•元数据/结构化数据:
网址,网页大小,新旧程度,标题,文件类型,...
•链接结构
190概述标题
介绍三种方法,即利用指定查询来搜索网页类似于SQL的查询语言。
•所有的查询语言支持使用更多的信息来表达信息需求。
•所有的方法都是基于一个关系/列表设置的网站。
三种方法:
W3QL
WebSQL
WebSSQL
191概述标题
三种方法的主要特点:
•W3QL:
没有数据库模式,利用现有的搜索引擎索引,注重结合的UNIX命令。
•WebSQL:
具有高水平的数据库模式,利用现有的搜索引擎索引,注重形式主义和本地网页和全局网页的区别。
•WebSSQL:
具有高水平的数据库模式,使用它自己的索引强调相似度为基础的综合网页和图像检索。
192W3QL
(1)
例1:
查找其标题包含“A.Einstein”,并保存到一个目录中检索结果的文件。
selectcpn2/*result
fromn1.l1.n2
wheren1inImportantIndexes.url;
filln1.formasinImportantIndexes.fil
withkeyword=“A.Einstein”;
sqlcond(n2.type=html)and
(n2.titlecontains“A.Einstein”)
193W3QL
(2)
解释:
Select语句处理检索结果。
例如:
复制检索页到结果目录。
From语句指定超文本(链接)模式。
n1.l1.n2:
从节点n1,沿着链路1l到节点n2
Where语句链接现有的搜索引擎索引。
用“A.Einstein”来查找搜索引擎
Sqlcond语句从结果页中指定满足本地条件。
n2.type=html,n2.title包含“A.Einstein”
194W3QL(3)
例2:
支持自动更新的检索信息
selectcontinuouslysqlprintn2.url
runlearnformatifn1.formunknownin
ImportantIndexes.fil;
evaluatedeveryweek;
195W3QL(4)
模式图G(V,E):
在两个节点间最多有一个边
一个节点最多有一个自循环
举例:
196W3QL(5)
模式匹配:
web上如果有一个映射F使得一个子图G’(V’,E’)和G(V,E)相匹配
如果v∈V没有自循环:
F(v)={v’},v’∈V’
如果v∈V有自循环:
F(v)={v1’,…,vn’}那么vi’∈V’并且(vi’,vi+1’)∈E’
对于所有的u,v∈V,ifu≠v,那么F(u)∩F(v)=φ
197W3QL(6)
n1.l1.(n2.l2).l3.n3,符合以下条件:
(1)n1’.l1’.n2’.l3’.n3’
(2)n1’.l1’.ni’.li’.nj’.l3’.n3’
(3)n1’.l1’.ni’.li’.nj’.lk’.nk’.l3’.n3’
F(n1)={n1’}
F(n2)={ni’,nj’,nk’}
F(n3)={n3’}
F(l1)={l1’}
F(l2)={li’,lk’}
F(l3)={l3’}
198WebSQL
(1)
代表web的2个虚拟列表:
1、文档(url,title,text,type,length,modif)
类型:
html,text,…
长度:
页面字节的大小
变更:
最后修改的日期页
2、锚(源,指定链接地址,列表)
锚中的每个记录代表一个由文档D1链接到文档D2。
源:
文档d1的url
指定链接地址:
文档d2的url
列表:
锚文本相关的d2的url
199WebSQL
(2)
样本查询用到文档和锚
查找所有包含“超文本”的html文件。
selectd.url
fromDocumentdsuchthatdmentions“hypertext”
whered.type=“html”
评价:
——评价from语句用现有的常规搜索引擎(如altavista)。
——评价本地其他查询。
200WebSQL(3)
从包含“JAVA”的文档中找到所有程序的链接。
selecta.label,a.href
fromDocumentdsuchthatdmentions“Java”,
Anchorasuchthata.base=d
wherea.labelcontains“applet”
“mentions”是用的from语句
“contains”用的是where语句
201WebSQL(4)
WebSQL中的链接符号:
=:
空链接
+>
:
内部链接(在同一页中指示一个位置)
->
本地链接(指示在相同的服务器中的另一个页面)
=>
全局链接(在不同的服务器中指示一个页面)
链接路径一般表达式可以形成关联,交替(|)和重复(*)操作。
202WebSQL(5)
查询用到链接路径的一般表达式:
从包含“computerscience”的页面中找到所有包含“database”并且可以获得零个或多个本地链接的页面。
selectc.url
fromDocumentdsuchthatdmentions“computer
science”,
Documentcsuchthatd=|–>
*c
whereccontains“database”
203WebSQL(6)
找到所有满足以下条件的网页:
其标题包含“database”,和CSDept主页同一个服务器(http:
//www.cs.binghamton.edu),并且出口不少于2个本地链接。
fromDocumentdsuchthat
http:
//www.cs.binghamton.edu=|–>
|–>
–>
d
whered.titlecontains“database”
204WebSQL(7)
查询成本分析是WebSQL的重要课题
·
WebSQL不会有它自己的网页索引,当评估一个查询时往往需要将网页放到本地服务器。
成本分析,可以帮助用户意识到其查询的成本,并提交成本意识查询。
成本分析还能帮助改进WebSQL优化查询技术。
205WebSQL(8)
WebSQL采用简单的成本模式。
控制成本是通信的成本(网络传输数据的成本)并且忽略本地处理的成本。
该成本模式是,在约束需要提取的远程文档的数量基础上,进行合理的分析。
从一个远程服务器获取文档的成本,被假定为一个有限的常量(在实践中它是一个文档大小和其他网络相关因素的函数)。
206WebSQL(9)
假设WebSQL服务器和www.cs.binghamton.edu是一个服务器。
1、selectd.urlfromDocumentdsuchthat
//www.cs.binghamton.edu–>
*d
没有造成任何损耗或有O(l)的损耗
2、selectd.urlfromDocumentdsuchthat
//www.cs.binghamton.edu=>
造成损耗O(k),这里k是www.cs.binghamton.edu中远程URL的数量。
·
k既可以被存储,也可以被估计
207WebSQL(10)
举例(续):
3、selectd.urlfromDocumentdsuchthat
造成损耗O(k∗s),这里k是www.cs.binghamton.edu中远程URL的数量,s是单个服务器中文档返回的数量。
4、selectd.urlfromDocumentdsuchthat
//www.cs.binghamton.edu(=>
|–>
)*d
造成损耗O(n),n是整个web中页面的数量
208WebSQL(11)
一般来说,一个单链路路径表达式的损耗:
1、如果表达式不包含=>
,那么损耗是O(l)
2、如果表达式包含=>
且与*联立,那么损耗是有限的用O(n)表示,n是整个web中页面的数量。
3、如果表达式是→r1⇒→r2⇒…→rm,那么损耗是有限的(用符号表示r=1+max(r1…rm))
209WebSQL(12)
整个查询成本的复杂性分析:
1、一个查询可能包含多个链接路径表达式,这可能是相互依存的。
2、链路路径表达式可能是隐含给出。
selectd2.url
fromDocumentd1suchthatd1mentions“vldb”,
Documentd2suchthatd1−>
d2
在搜索引擎中,文档包含“vldb”不一定是本地的:
意味着(−>
|=>
)−>
210WebSQL(13)
Anchorasuchthata.base=d1,
Documentd2suchthata.href−>
*d2
在搜索引擎中,文档包含“vldb”不一定是本地的
对于一个给定锚记录a,a.href可能是内部,本地或远程和a.base相比较。
推出:
(−>
)(+>
|−>
*
211WebSSQL
(1)
描述web的三个列表:
网页(url,title,text,size,type,server_type,fetch_time,last_modified)
text(文本)仅包含相应网页的ID文件
图(url,title,image,description,color,texture,size,type,server_type,fetch_time,last_modified)
image(图)包含图的ID的文件
description(描述)包含图的相关文本
color(颜色)和texture(结构)包含相关特征数据
链路(url,child_url,label)
212WebSSQL
(2)
这三个表构建成一个探测器,当文档被索引,而且存在一个关系型数据库。
索引文件被创建的领域有text,description,title,color,texture,并且这些文件都存储在关系型数据库之外。
这种模式与WebSQL相似,除了:
——图也有描述
——列表是真实的
213WebSSQL(3)
链接符号
保留=和->
,不要+>
和=>
通过介绍2个参数来丰富->
−>
(n,q)
——n是沿着最短路径的最大链接数
dl−>
(3)d2意味着,d1到d2间最多有3条链路,d1沿着最少一条路径到达d2。
(3)等价于(=|−>
)(=|−>
)
——q是个量词(部分量词是some,全部量词是all):
表示some或者all目标/指向页满足条件。
214WebSSQL(4)
查找web页,标题包含“computerscience”和web对象所有的url(web页或图)包含3条链路“binghamton.edu”。
selectp.url
fromWebpagesp
wherep.titlecontains“computerscience”
andp−>
(3,all)p1
suchthat(p1.urlcontains“binghamton.edu”)
215WebSSQL(5)
相关度运算:
一般句法:
target_objectsimilar_to[(n,DomainList)]query_desc
target_object可以是三个列表中的text,title,description,color,texture
query_desc是查询常量像关键词目录和图像彩色柱状图。
n是用于指定的目标对象,只有具有n的查询说明最大的相似度满足的条件。
DomainList在进一步限定目标对象下详细描述url的范围。
216WebSSQL(6)
找到的所有网页的文本与“digitallibrary”最相关的。
wherep.textsimilar_to“digitallibrary”
当similar_to第一个参数不存在时,所有的目标对象与被满足条件的查询说明是完全相似的。
如果页面发现有不同的相似度,那么最大相似度使用select语句。
217WebSSQL(7)
在SUNYBinghamton域或者SUNYBuffalo域中所有web页寻找与“digitallibrary”相关度最大的。
wherep.textsimilar_to(binghamton.edu,
buffalo.edu)“digitallibrary”
域是url中顶级部分,或者删除重要的字符串和相应的“.”
218WebSSQL(8)
在SUNYBinghamton域或者SUNYBuffalo域中所有web页寻找与“digitallibrary”相关度不超过5的。
wherep.textsimilar_to(5,binghamton.edu,
similar_to的两个参数可单独或一起使用。
219WebSSQL(9)
图像检索举例:
selecti.url
fromImagesi
wherei.colorsimilar_to(binghamton.edu)bulogo.gif
wherei.colorsimilar_to(5)(red0.5,yellow0.3)
wherei.texturesimilar_to(binghamton.edu)beach.gif
220WebSSQL(10)
一个查询可能有多个条件。
wherep.textsimilar_to“webquerylanguage”
andp.last_modified>
May-01-99
相关度在0和1之间。
对于非相似性条件,如果对象满足条件,该对象相关度为1,否则相关度为0。
Where语句被假定为分离标准型(例如:
(A和B)或(C和D))
221WebSSQL(11)
结合相关度的规则:
假定Where语句有n个结合条件{C1,…,Cn}并且条件Ci包含Ki个条件{Ci1,…,Ciki},1≤i≤n。
如果一个web对象o由条件Cij获得相似值Sij,那么o的结合相关度定义为:
用最小值结合and,最大值结合or
222WebSSQL(12)
在SUNYBinghamton域中寻找最大相关度是5的“computerscience”,标题包含“department”,并且每个web页有子页面,页面中的文本与“digitallibrary”相关
selectp.urlfromWebpagesp
wherep.textsimilar_to(5,binghamton.edu)
“computerscience”
andp.titlecontains“department”
(some)p1suchthat(p1.text
similar_to“digitallibrary”)
223WebSSQL(13)
处理条件的规则:
把查询看做“p−>
(n,x)pcsuchthat(condition-on-pc)”的依据,这里x是some,all或者不存在。
假定页面p有m个后代满足“p−>
(n,x)pc”,并且这些后代是p1c,…,pmc。
如果pc由条件pic,1≤i≤m,获得相关度值Si,那么分给p的相关度是
224WebSSQL(14)
查询q的查询处理算法的要点:
步骤1:
分解q,使得每个子查询的一个数据类型为子查询(相关的,文本,图)
步骤2:
评估每个特定顺序的子查询
——真正的SQL子查询是由DB系统处理。
——相似的文本子查询通过文本检索方法处理。
——图像字查询基于图像加工技术。
225WebSSQL(15)
查询q的查询处理算法的要点(续):
步骤3:
收集所有子查询的返回结果
——遵循结合律和分配律
226搜索引擎的评价
(1)
原则上,搜索引擎可以使用反馈和精确评价
在实践中,反馈是很难获得,因为它是很难知道查询相关的网页数量。
下面的措施常常被用来评价搜索引擎(Hawkingetal.MeasuringSearchEngineQuality.InformationRetrievaljournal,4
(1),2001):
精确n个文档检索(P@n)
MRR1意思是平均排名倒数第一的有关文档。
TSAP–TREC-平均精度类型为n:
平均值P@n考虑有关文档的位置。
227搜索引擎的评价
(2)
搜索引擎的大小评价:
估计N个网站是由搜索引擎索引的网页。
一个简单的抽样方法
——确定几个不相关的条件(ti,tj)
——为每一对(ti,tj)向搜索引擎提交查询条件,并获得点击数。
让ni和nj分别为ti和tj的点击数。
——把ti和tj共同作为查询提交,获得包含ti和tj的点击数,让这个数为K
——假定ti和tj不相关,有N=ni*nj/K
求每对的平均数
问题:
(1)ti和tj不相关;
(2)取词要随意;
(3)ti和tj共同作为查询条件时,不能被一些搜索引擎支持。
228搜索引擎的评价(3)
提高样本的随机性和处理“ti和tj”的问题
——捕获-重新捕获(Liu,Yu,Meng,CIKM,2001):
随机提交查询,在样本集中随机选择结果页面的ID。
——采样-重新采样(Luo&
Callan,SIGIR2003):
(1)从搜索引擎中收集具有代表性的真正页面的样本S;
(2)从S中随机选择一个条件t,并提交到搜索引擎中,并让n1点击数;
(3)评价N=n1*|S|/df(t,S),这里df(t,S)是S中t的df。
229关于搜索引擎查找更多信息
大部分会议和期刊,像出版IR(一种期刊)的也发表搜索引擎相关的文章。
一些介绍搜索引擎的网站
–
–搜索引擎年会
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 中文版 3140