中文Google和百度的排序方式与检索效率比较分析.docx
- 文档编号:25740419
- 上传时间:2023-06-12
- 格式:DOCX
- 页数:12
- 大小:24.07KB
中文Google和百度的排序方式与检索效率比较分析.docx
《中文Google和百度的排序方式与检索效率比较分析.docx》由会员分享,可在线阅读,更多相关《中文Google和百度的排序方式与检索效率比较分析.docx(12页珍藏版)》请在冰豆网上搜索。
中文Google和XX的排序方式与检索效率比较分析
收稿日期:
20030812作者简介:
谈大军(1966,
女,1990年毕业于武汉大学信息管理学院,获硕士学位,华南师范大学经济与管理学院信息管理系副教授,硕士导师,在读博士,主要研究方向为信息检索、信息产业,公开发表论文二十余篇,出版教材1部。
林明茵(1981,女,2004届本科生。
叶赛(1980,
女,现为华南农业大学管理学院管理科学与工程专业在读硕士生。
中文Google和XX的排序方式与检索效率比较分析
谈大军林明茵(华南师范大学经济与管理学院,广州510631
叶赛
(华南农业大学管理学院,广州510642
摘要中文Google和XX是大陆网民最常使用的两个中文搜索引擎,因此对其检索效率的比较分析就显得格外重要。
而检索结果的排序是影响检索效率的关键因素,因为根据统计很多网络用户只有耐心看检索结果的前5页。
本文在概括介绍目前搜索引擎采用的三种结果排序规则:
地点和频率法、人气质量定律、自信心定律的基础上,比较分析了中文Google和XX的排序技术。
最后笔者通过检索实践得出结论,中文Google和XX各有所长,但是在检索效率上尤其是检索结果的有效性上,中文Goole比XX要好。
关键词信息检索;搜索引擎;排序技术;中文Google;XX;检索效率
AbstractChineseGoogleandBaiduaretwopopularsearchenginesinourChineseusers.Soitisimportanttoanalysetheirretrievalefficiency.Thispaperfirstsummarizesthreekindsofresultsortingrulesthatsearchenginecurrentlyuses:
keywordslocationandfrequencymethod,humanspiritmasslaw,selfconfidencelaw.ItsecondstudiesandcomparesChineseGoogleandBaiduhowtoarrangetheirsearchingresults.Andfinally,itmakescomparativeresearchonretrievalefficiencyofthetwosearchengines.wethinkthatChineseGoogleisbetterthanBaiduinretrievalefficiencybyourpractice.
Keywordsinformationretrieval;searchengine;resultsortingrule;ChineseGoogle;baidu;retrievalefficiency
中图分类号G3544
文献标识码A
文章编号1008-0821(200503-0087-03
根据调查,在大陆网民最常使用的中文搜索引擎中,中文Google和XX位居榜首。
因此对其检索效率的分析就显得格外重要。
按照信息检索理论的观点,检索效率主要通过查全率和查准率两个指标来体现,尽管在网络环境下,查全率的含义面临着新的挑战,因为查全率是以信息资源总量作为计算基础的,而网络信息资源的总量我们并不明确,但是我们可以从搜索引擎提供的检索结果数量来大致评价其查全率,当然从用户的角度来说,查准率即检索结果的有效性比单纯的检索结果数量更有意义。
影响检索效率的因素很多,在各项因素中,检索结果的排序方式是最重要的一项。
根据点击情况做出的统计显示,搜索用户一般只看到检索结果前5页,没有耐心去看后面的检索结果,而这几页的信息能否满足需要是用户评价一个搜索引擎的根据。
因此,笔者首先分析中文Google和XX的检索结果排序方式。
为了讨论的方便,这里仅针对网站、网页的关键词检索,没有涉及新闻、图片和MP3等方面的检索。
1搜索引擎检索结果的排序规则
基于关键词的搜索引擎在决定网页的相关性排序时,一般遵循以下三大定律。
11地点和频率法
地点和频率法最主要的算法就是看网页关键词出现的地点和频率。
搜索引擎先检查标题中含有关键字的网页并认为它比
其它网页的相关性更强。
搜索引擎还会检查在网页顶部附近是否有关键字出现,例如在大字标题或者在网页的前几段内。
该算法认为与要检索的关键字相关的网页应该从一开始就含有该关键字。
出现频率是搜索引擎决定相关性的另一个因素。
搜索引擎会分析关键字在网页中出现的频率并与其它网页相比,关键字出现频率较高的网页被认为相关性更好。
12人气质量定律
人气质量定律是搜索引擎的第二定律,它是受科学引文索引机制启发而提出的。
科学引文索引机制认为被引用次数多的论文就是权威论文、好论文。
那么在网上谁的网页被链接次数多,就认为该网页的质量高、人气旺。
再结合相应的链接文字分析,就可以对检索结果排序了。
Google、XX都采用了该定律。
13自信心定律
人气质量定律解决的仅是技术层面的问题,然而搜索引擎融合了技术、文化和市场等各层面的因素。
解决搜索引擎公司的生存和发展问题需要搜索引擎的第三定律自信心定律。
即向那些网站的拥有者们拍卖他们网站在检索结果中的排名,谁付的钱多,谁的网站就排在前面,且付费是根据网民点击该网站的情况来计算的,仅在检索结果中出现并不需要付费。
根据这一定律,检索结果的相关性排序,除了以词频统计和超链分析为依据之外,更注重的是竞价拍卖。
谁对自己的网站有信心,愿意为排名付钱,谁就排在前面。
XX目前也采用这种排序方式。
March2005
No.3
信息化与网络建设
以下具体分析中文Google、XX各自所采用的排序技术。
2中文Google检索结果排序方式
Google的检索结果按相关性由大到小排序输出,其相关性判断的依据除了常用的检索词在网页中的出现词频、位置之外,很重要的一个依据是通过与该网页链接的网页与检索词的匹配程度来判断其相关度大小。
21Google的排序技术
Google拥有多项技术,这些技术是Google提供各种特殊检索和特色功能的基础。
在这些技术中,最核心、最关键的是PageRankTM技术和超文本匹配分析技术。
211PageRankTM技术(网页级别
作为组织管理工具,PageRank利用了互联网独特的民主特性及其巨大的链接结构。
实质上,当从网页A链接到网页B时,Google就认为网页A投了网页B一票。
Google根据网页的得票数评定其重要性。
然而,除了考虑网页得票数(即链接的纯数量之外,Google还要分析投票的网页。
重要的网页所投出的票就会有更高的权重,并且有助于提高其它网页的重要性。
PageRank技术根据网页之间的链接结构对网页的重要性进行客观的评价,并将网页的PageRank值应用于检索结果的排序。
这样,PageRank技术在很大程度上避免和减少了人为因素,客观地把最恰当的检索结果呈现给用户。
212超文本匹配分析技术(HypertextMatchingAnalysis
Google在排列其检索结果时,都会考虑每个网页的PageRank值,将重要的、高质量的网页排在结果列表的前面。
但即使网页的PageRank值再高,如果不能满足用户的检索需求也是毫无意义。
因此,Google将PageRank算法与超文本匹配分析技术结合在一起。
一般的搜索引擎仅仅考虑检索词出现的次数,而Google还在此基础上分析关键词的字体、字号以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页的内容加以分析。
Google认为,关键词在网页中出现的位置以及字体等因素,都体现了该关键词在该网页中的重要程度,比如说,如果检索词出现在网页A的标题中,而只是出现在网页B的正文中,那么在不考虑其它因素的情况下,说明网页A与用户需求更匹配。
22Google的关键词广告(GoogleAdWords
Google根据客户购买的关键字,以纯文本的方式把网站客户信息安置在检索页面的右侧空白处,并标有赞助商链接的标记。
Google称:
自己的广告坚决不打扰、不误导、不恐吓用户、不增加用户加载页面的时间。
虽然我们也在检索结果旁刊登相关广告,但没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。
3XX的排序方式
31XX的超链分析技术(LinkAnalysis
XX搜索引擎的核心技术是超链分析技术,XX总裁李彦宏是超链分析专利的惟一持有人,而且他给这个技术取名叫人气质量定律,亦称搜索引擎的第二定律。
它与PageRank技术的内容相似:
统计每个网页被其它网页链接指向的情况,次数越多则级别越高,排名也就越靠前。
因此,超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在XX搜索时,越受用户欢迎的内容排名越靠前。
此外,超链分析技术将情报学中的引文索引技术同Web中最基本的东西超级链接分析的技术相结合,在查找的准确性、查全率、更新时间、响应时间等方面与其它技术相比都有很大的优势;同时,XX应用内容相关度评价技术,并且运用了中文智能语言的处理方法,依靠字与词的不同切割方法,弥补了单纯依靠字或词的引擎技术的缺陷,并且能够在不同的编码之间转换,这就使得简体字和繁体字的检索结果可以自然结合。
32XX的竞价排名方式
竞价排名服务是XX在2001年7月建立的一个商业模式,它是由客户为自己的网页购买关键字排名,按访问量计费的一种服务。
也即搜索引擎排序的自信心定律。
由于检索结果的排名是根据客户出价的多少进行排列,故称为搜索竞价排名广告。
因此,XX的检索结果的排序方式是在超链分析技术根据网页的重要程度及与检索词的相关程度排列出结果后,再按照竞价排名的情况组织检索结果页面,根据出价的高低来让参与了相关检索词竞价排名的网站先后排在结果的前列。
那么,竞价排名是否削弱了检索结果的可靠性呢,XX声称,其竞价排名系统不会降低检索结果的相关性:
XX竞价排名系统对客户选择关键字和填写信息的规定和审核非常严格,保证结果都是跟该关键字最相关的信息。
总之,搜索引擎结果排序是多种因素综合而成,如何在检索结果的公正性客观性与搜索引擎提供商的经济利益之间求得平衡事关搜索引擎的未来。
中文Google和XX的排序方式可以用下表总结如下:
表1中文Google和XX的排序方式
搜索引擎检索范围主要排序技术影响排序的广告形式中文GOOGLE所有中文网页PageRankTM技术(网页级别,超文本匹配分析技术
百度所有中文网页超链分析技术,内容相关度评价技术XX竞价排名
4中文Google和baidu检索效率的比较分析
笔者遵循信息检索理论对信息检索的分类,以专有名称、普通名词来进行数据、事实检索,在检索过程中应用了布尔逻辑等检索技巧,分别考察两个搜索引擎检索结果的数量和检索结果的有效性。
41检索结果数量的比较
Google和baidu都是利用高性能的网络蜘蛛程序自动地在互联网中进行网页的抓取,建立相应的数据库。
Google号称拥有检索网页数量达24亿网页,Google目录中收录了10亿多个网址,Google支持多达132种语言,在搜
信息化与网络建设
索引擎中排名第一;XX号称拥有目前世界上最大的中文信息库,总量超过3亿页以上,并且还在以每天几十万页的速度快速增长。
数据库的容量决定着检索结果数量的提供。
本文分别以关键词鲜花、两个关键词鲜花与桂花的逻辑与、逻辑或、逻辑非进行组配进行检索,得出检索结果如下:
表2中文Google和baidu检索结果数量比较(检索时间:
2004年6月28日2030
检索结果检索式
中文Google百度
数量(项速度(秒数量(项速度(秒
鲜花114000010334600000001鲜花桂花10300041192000161鲜花OR桂花(中文Google
鲜花|桂花(XX
123000004035300000260鲜花-桂花1010003374700374
从上述检索结果看出,XX在检索结果数量、检索速度上占有优势。
由于鲜花涉及到市场营销的部分内容,因此XX检索结果中有大量赞助商的网页,比如关键词鲜花搜索结果XX的前23项均为推广网页;Google的赞助商链接共8个放在右侧,没有放入检索结果中。
42检索结果的有效性的比较
为了排出竞价排名等市场因素、单纯考察排序技术对检索结果的影响,本文还选择专有名词和普通名词来作为检索词。
421专有名词普通人名的检索
为了控制检索数量,真实地进行检索结果比较,本文选择了作者熟悉的普通人物名称作者之一的谈大军,作为关键词,进行检索结果的比较。
具体检索结果如下:
表3专有名词检索结果总量
(检索时间:
2004年6月28日2030
检索结果(项中文Google百度
涉及的检索结果总量2026
处理后提供的检索结果1612
屏蔽的检索结果414
从上表看出XX涉及的网页多,但中文Google显示给用户处理后的检索结果多,多出4项。
而在显示的检索结果中,中文Google的有效性也大于XX,多出3项有效的检索结果。
但是检索结果的重复方面,中文Google差一些,具体情况见下表:
表4所提供的检索结果的有效性比较
提供检索结果(项中文Google百度
相同的有效结果55
不同的有效结果63
有效结果合计118
不相关的结果44
内容重复的结果10
无效结果合计54为了考察没有显示的检索结果内是否有有效的检索结
果,通过链接发现XX丢掉的有用信息多于中文Google,
多出1项。
表5屏蔽的检索结果有效性的比较
屏蔽的检索结果中文Google百度
相关的检索结果12
不相关的检索结果312
总计414
在两个搜索引擎不相关的检索结果中主要是由于中文
分词技术不成熟造成的,比如检索结果中尤其是XX屏蔽
掉的检索结果中有多条检索结果是同一图书的内容
他谈大军下一阶段的后勤工作。
在这一轮检索结果有效性的考察中,中文Google检索
效率比XX高,且中文Google所提供的信息时效性比XX
强,因为中文Google反映的1项最新网页信息,XX的检
索结果中没有。
但是两者可以相互补充,因为各自都有对
方没有的相关检索结果。
422普通名词短语的检索
由于目前网上中文学术文献检索往往受到收费注册限
制,或者为了扩大检索范围,因此有许多学术研究者喜欢
利用搜索引擎检索参考资料。
两个中文搜索引擎在学术信
息的反映上,哪个具有更高的检索效率呢?
下面进行比较
分析。
为了控制检索数量,我们选择广东省软件产业
这一短语加标点符号进行强制性短语检索,得出检
索结果如下:
表6普通名词检索结果总量
(检索时间:
2004年6月29日1700
检索结果(项中文Google百度
涉及的检索结果总量151159
处理后提供的检索结果8783
屏蔽的检索结果6476
由于检索结果较多,我们以前10个检索结果作为代表
进行比较分析。
因为搜索引擎按照相关性、时效性将最相
关的检索结果排在最前面。
两个搜索引擎(下转第92页
March2005No.3
信
息
化
与
网
络
建
设
微软最初基于软件的负载平衡解决方案是WindowsNTLoadBalancingServer(WLBS,又被称为Convoy。
WLBS的实质是在共享的虚拟IP地址和参与负载平衡的服务器的真实IP地址之间建立映射关系。
在Windows2000中的负载平衡是一种网络驱动程序接口规范(NetworkDriverInterfaceSpecification,NDIS数据包筛选驱动程序,它位于网络适配器NDIS驱动程序的上方,TCP/IP堆栈的下方。
每个服务器接收所有的发送到虚拟IP的数据包,NLB针对每一个数据包来判断哪一个数据包应当由特定的服务器来处理。
如果某个数据包应当由其它服务器来处理,运行NLB的服务器就会抛弃该数据包。
如果NLB认为应当本地处理数据包,数据包就会被向上传递给TCP/IP堆栈。
NLB能增强基于TCP/IP的关键服务的伸缩性和高可用性,为了使吞吐量和可用性增加到最大限度,NLB采用完全分布式软件体系结构。
在每台群集主机上同时运行一个相同的NLB驱动程序副本。
这些驱动程序安排单一子网上的所有群集主机同时检测群集主IP地址上的传入网络通信。
在每台群集主机上,驱动程序都充当网络适配器驱动程序和TCP/IP堆栈之间的筛选器,只允许主机接收部分传入的网络通信量,这样,客户端请求得以在群集主机之间划分并进行负载平衡。
该体系结构通过使用广播子网将传入的网络通信发送给所有群集主机并通过消除将传入数据包路由到单个群集主机的需要来使吞吐能力达到最大。
由于筛选不需要的数据包比路由数据包(涉及到接收、检验、重写和重新发送等操作更快,所以NLB与基于调度程序的解决方案相比其网络吞吐能力更强。
随着网络和服务器速度的提高,NLB的吞吐能力也相应提高,这样就不再依赖于特定的硬件路由实现方案(如CiscoLocaldirector。
如NLB已在GB网络上显示了250GB的吞吐能力。
NLB使用第二层广播或多播同时将传入的网络通信分配到所有群集主机。
在默认的单播模式下运行时,NLB会重新分配用于启用它的网络适配器的媒体访问控制(MAC地址(称为群集适配器,并为所有群集主机分配相同的MAC地址。
所有群集主机接收传入的数据包并传给NLB驱动程序进行筛选,从而实现了负载平衡。
NLB允许每个群集最多有32台主机,当群集子网将要达到饱和时,可在其他子网上再添加一个群集,使用循环DNS将客户端导向群集。
循环法(Roundrobin是DNS服务器用来对网络资源的请求量进行分担的一种技术。
当对于某个被查询的DNS域名有多个属于相同类型资源记录时,这种技术将会轮换查询返回的资源记录数据的顺序。
5结束语
在基于Windows平台的服务器上,有很多技术和方法可以改善其高可用性及可靠性,通过好的方案设计和软硬件技术的优化组合,PCSERVER也可在渐趋复杂的图书馆网络运行中发挥自己的作用。
参考文献
[1]微软公司.MicrosoftWindows2000网络基础结构设计[M].北京:
清华大学出版社,2001:
162168.
[2]微软公司.MicrosoftWindows2000AdvancedServer群集服务[M].北京:
清华大学出版社,2002:
3639.
[3]徐立云,邵惠鹤.双机容错系统的一种实现途径[J].计算机工程,2000,(9.
(上接第89页
搜索的前10个搜索结果没有相同的,现分别从提供信息的时间、信息类型对其进行分析。
表7中文Google和XX前10个检索结果的时间分布年代
搜索引擎
200420032002200120001999中文GOOGLE451000
XXBaidu115201
表8中文Google前10个检索结果的信息类型分布年代
信息类型
200420032002200120001999专题新闻411
研究论文2
广告信息2
表9XX前10个检索结果的信息类型分布
年代
信息类型
200420032002200120001999专题新闻1321
研究论文2
广告信息1从表7、8、9可以看出,中文Google提供的信息的时效性强于XX。
中文Google提供的一条重要新闻4月15日在香港国际会展中心举行2004年春季珠三角软件产业论坛,珠三角软件产业论坛2003是广东软件产业界的大事。
而在XX网页前10个结果中没有涉及,在新闻搜索以及其后提供的72项结果中也没有此条新闻。
在所提供的信息类型中,专题新闻和研究论文对于研究者来说比较有参考价值。
这里的广告信息涉及的是招生信息和软件产业年代研究报告的销售信息。
总之,中文Google和XX两个重要搜索引擎各有所长,但是在检索效率上尤其是检索结果的有效性上,我们认为中文Goole比XX要好。
参考文献
[3]郑德俊.Google搜索引擎的经营策略[J].中国信息导报,2004,(3.
[4]张燕,惠佳颖.网络搜索引擎评价[J].现代图书馆情报技术,2001,(4.
[5]刘国栋.中文Google与中文Excite检索寄生虫专业文献的效果比较[J].实用寄生虫病杂志,2002,10,(2.
信息化与网络建设
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 Google 百度 排序 方式 检索 效率 比较 分析