信息检索技术实验张莹127129Word文档下载推荐.docx
- 文档编号:21664221
- 上传时间:2023-01-31
- 格式:DOCX
- 页数:15
- 大小:529.41KB
信息检索技术实验张莹127129Word文档下载推荐.docx
《信息检索技术实验张莹127129Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《信息检索技术实验张莹127129Word文档下载推荐.docx(15页珍藏版)》请在冰豆网上搜索。
实验过程3
nutch环境的搭建3
文件设置3
安装JDK3
设置环境变量3
安装wampServer5
数据检索6
检索6
评分详解7
查看索引分词结果8
命令输入8
luke主界面8
数据采集10
安装TeleportPro10
抓取网站10
观察nutch目录下的变化12
布尔搜索13
检索“学生”13
检索“教师”14
检索“学生or教师”14
检索“学生and教师”15
结果分析15
实验心得15
实验目的
通过搭建nutch搜索系统来熟悉该软件的使用。
通过观察检索内容、抓取网站结果、分词流程分析、数据布尔搜索、算法分析等步骤,实现对信息检索技术理论的深入了解。
实验过程
nutch环境的搭建
文件设置
将nutch-0.9,tomcat,paoding-analysis-2.0.4-alpha2,apache-ant-1.8.3拷备至D:
\test\目录,同时对Tomcat\webapps\nutch-0.9\WEB-INF\classes中的nutch-site.xml文件进行修改,其中value=D:
\test\nutch-0.9\crawl\的值必须对应你所采集到的文件。
安装JDK
安装jdk,安装目录为:
C:
\ProgramFiles\Java\jdk1.7.0
设置环境变量
右击我的电脑->
属性->
高级->
环境变量,如下图:
图1环境变量
环境变量配置如下:
作用域
环境变量
值
用户变量
PATH
D:
\test\apache-ant-1.8.3\bin;
\ProgramFiles\Java\jdk1.7.0\bin
系统变量
ANT_HOME
\test\apache-ant-1.8.3
CATALINA_HOME
\test\Tomcat
CLASSPATH
\test\nutch-0.9\src\plugin\lib-paoding-analyzers\paoding-analysis.jar;
C:
\ProgramFiles\Java\\jdk1.7.0\lib
NUTCH_JAVA_HOME
PAODING_DIC_HOME
\test\paoding-analysis-2.0.4-alpha2\dic
JAVA_HOME
安装wampServer
安装wampServer,启动服务,查看http:
//localhost/如下图:
测试80端口是否可用,如下图:
图2运行界面
数据检索
检索
在搜索栏中输入关键字:
成绩,点击搜索后出现以下结果:
图3数据检索csdn
评分详解
点击“评分详解”可以看到以下结果:
图4评分详解
查看索引分词结果
命令输入
命令行输入以下命令:
图5启动luke
luke主界面
选择路径crwal之后,打开luke,可以看到如下画面:
图6luke界面
图7luke界面
我们可以在luke搜索栏中进行检索,选择“search”选项卡,输入“成绩”二字就可以看到以下检索结果:
图8检索结果
数据采集
安装TeleportPro
官网上下载安装包,直接运行即可:
图9cygwin安装界面
抓取网站
创建一个新的项目
图10创建项目
保存项目
图11保存项目
运行项目
图12运行项目
观察nutch目录下的变化
抓取网站后后,在nutch目录下生成一个crawl文件夹,里面包含如下内容:
crawldb
1/②crawldb/linkdb:
weblink目录,存放url及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期(可以在nutch-site.xml中配置),此处使用的是默认参数。
index
2index:
lucene的索引目录(nutch是基于lucene的,在nutch-0.9\lib下可以看到lucene-core-2.1.0.jar,最后有luke工具的简单使用方法),是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容
indexes
3indexes:
索引目录,我运行时生成了一个”part-00000”的文件夹
segments
4segments:
一存放抓取的页面,与上面链接深度depth相关,depth设为4则在segments下生四个个以时间命名的子文件夹,比如”20121124124804”,打开此文件夹可以看到,它下面还有6个子文件夹,分别是:
crawl_generate:
namesasetofurlstobefetched
crawl_fetch:
containsthestatusoffetchingeachurl
content:
containsthecontentofeachurl
parse_text:
containstheparsedtextofeachurl
parse_data:
containsoutlinksandmetadataparsedfromeachurl
crawl_parse:
containstheoutlinkurls,usedtoupdatethecrawldb
布尔搜索
检索“学生”
图17检索“学生”
检索“教师”
图18检索“教师”
检索“学生or教师”
检索“学生and教师”
结果分析
经验算,17+5-22=0,符合布尔检索结果
实验心得
试验步骤分为:
环境搭建、数据检索、查看索引分词、数据采集、分词流程分析、算法分析和布尔搜索等几部分。
首先是环境搭建。
关于服务器软件,个人偏好wampServer。
集成Apache,PHP,MySQL,免去了开发人员将时间花费在繁琐的配置环境过程。
设置环境变量很简单,利用谷歌或者XX搜索就能很轻松地了解到配置方法。
需要注意的是,环境变量需要增量更新,而不是全量更新。
并且注意使用英文半角分号,而不是全角符号。
采集数据时,偏好使用TeleportPro软件。
拥有汉化版本,叫“网站整站下载器”。
唯一缺点是,需要收费。
数据检索中输入关键字进行检索却没有数据,通过重启操作操作系统,再重启nutch服务后,数据正常加载,可以检索。
分词流程是我过去所知之甚少的理论知识,通过这次试验,我向班内专业做搜索引擎的同学询问,他热情的向我讲解专业化的理论知识,并提供给我一些专业化的文档,供我完成分词流程的分析工作,使我在理论上明白了分词的奥秘。
总的来说,计算机技术日新月异,发展很快。
我们不但要学习最新的技术、软件,同事,我们需要打好基础知识,学习技术原生的形态,这有利于我们掌握技术的发展方向。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 技术 实验 127129
![提示](https://static.bdocx.com/images/bang_tan.gif)