net小型搜索引擎系统开题报告.docx
- 文档编号:11209656
- 上传时间:2023-02-25
- 格式:DOCX
- 页数:6
- 大小:18.68KB
net小型搜索引擎系统开题报告.docx
《net小型搜索引擎系统开题报告.docx》由会员分享,可在线阅读,更多相关《net小型搜索引擎系统开题报告.docx(6页珍藏版)》请在冰豆网上搜索。
net小型搜索引擎系统开题报告
开题报告
论文(设计)题目:
基于.net的小型搜索引擎系统的设计与实现
院系:
计算机学院
专业名称:
计算机科学与技术网络工程方向
年级:
姓名:
学号:
指导教师姓名:
指导教师职称:
副教授
填表时间:
年月日
填表说明:
1.《开题报告》须由指导教师和指导教师小组集中开题指导并修改后由学生本人填写。
指导教师、指导教师小组及院(系)负责人在学生填写后,应在相应栏目里填写意见。
最后由院(系)盖章备案保存。
2.学生须按栏目填写《开题报告》,不得作实质性改变,填写应详细完整。
3.本表由教务处统一制作,用蓝色或黑色水笔认真填写,做到填写整洁、正确。
拟选
题目
基于.net的小型搜索引擎系统的设计与实现
选题依据及研究意义
随着计算机技术及网络的普及,人们对知识的获取不只来源于学校课堂,很大一部分来源于网络平台。
如何为用户提供一个层次清晰、内容丰富的网络学习平台,成为国内外的研究热点及网络教学的趋势。
传统的网络学习平台大都信息分类简单,知识脉络不够清晰,而检索系统大多是基于数据库系统自带的查询命令,如“like%keyword%”的形式实现检索。
这种检索方法不能分词、不够智能、检索结果的排列顺序也不够合理。
针对传统网络学习平台的不足,本文提出的新型的网络学习系统不仅提供对知识信息的解读,还分析知识内部的联系,梳理知识脉络,将知识以立体网络的形式展现给用户,从而使用户对知识信息有更立体深刻的了解;同时为了能够保证用户高效、准确地检索到需要的信息,本系统的检索模块中引入了新型的专用于.Net平台的Lucene.Net全文检索技术。
选题的研究现状
针对目前学习平台中信息简单罗列、组织层次不清晰的问题,利用.net平台上的ASP.Net、SilverLight技术设计实现了一个B/S架构的知识网络系统。
分析了树形结构的特点,提出了递归寻路径法,将知识信息层次清晰地展现给用户,并实现节点间路径的获取。
通过对Lucene.Net全文检索技术的研究,将其与SQLServer数据库的索引技术相结合,实现了一个高效的检索引擎。
Lucene.Net是一个类库,提供了简单的函数接口,可以方便地嵌入到各种应用中实现全文索引与检索功能。
目前Lucene全文检索技术发展迅猛,很多项目都使用了Lucene作为其后台的全文检索引擎,如Nutch(WebCrawler工具),Hadoop(基于Lucene的分布式计算平台)等。
本文通过对Lucene.Net的分析研究,将其与SQLServer数据库技术相融合,实现效率高、搜索结果准确的检索引擎模块。
拟研究的主要内容和思路
本系统采用B/S架构,编程语言为C#,所用技术为.Net平台下的ASP.NET、Silverlight,后台数据库为SQLSever2005。
从软件设计上采用三层结构,通常意义上的三层结构就是将整个业务应用划分为:
表现层、业务逻辑层、数据访问层。
区分层次的目的是为了实现“高内聚,低耦合”。
为了展现知识结构的动态网络,本系统还建立了SilverLight应用程序层。
另外本系统为了保证用户能够高效、准确地搜索到需要的信息,将适用于.Net平台的Lucene.Net全文检索技术和SQLServer索引技术相结合,构建了一个新型的搜索引擎模块。
搜索引擎模块采用多条件检索,知识信息的标题、条目、编辑人、内容都作为检索条件存在。
标题、条目、编辑人是作为较短的信息存储在数据库中;而用户编辑的内容则作为一段很长的信息对象存储在数据库中。
为了达到比较高效的检索效果,本模块对不同检索条件使用不同的检索技术。
对于标题、条目、编辑人检索条件,通过建立SQLServer数据库的聚集和非聚集索引来实现对它们的快速查找。
标题的ID作为主键聚集索引,而编辑人ID作为连接知识表和编辑人表的外键,设定为非聚集索引,条目ID作为条目表的主键聚集索引。
这样在建立好索引后,利用查询语句“like%keyword%”对数据库进行查询,效率能够提高50%左右。
对于用户编辑的内容,本文利用Lucene.Net技术,实现全文检索。
Lucene.Net是基于Java的全文索引工具包Lucene的.Net移植版本。
Lucene不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎及部分文本分析引擎。
Lucene的目的是为软件开发人员提供一个简单易用的工具包,以便在目标系统中实现全文检索的功能,或者以此为基础建立起完整的全文检索引擎
(1)知识点信息资源模块
此模块收集信息,对信息进行科学的整理、分类、存储,将存储在数据库中的信息层次化地展现在客户端页面。
(2)知识点网络模块
此模块在收集信息资源时,建立信息之间的父子或兄弟关系,并将这种关系存储在数据库中,逐步构建知识的网络结构,为用户提供清晰、立体的知识表现形式。
(3)系统搜索引擎模块
利用SQLServer自有的索引功能及Lucene.Net全文检索技术,建立高效的检索系统,通过识别用户输入的检索词,系统地进行模糊或精确查询,找到符合用户要求的相关内容,并进行排序显示。
jjjsj
(4)问答专区模块
此模块实现用户提问、回答、交流的功能,增加了用户间的有效沟通,并使系统的设计更加人性化。
(5)新闻通知模块
此模块用于管理系统新闻和通知,能够实时地将系统动态显示给用户。
(6)用户管理模块
此模块用于对用户的基本信息、权限及知识信息的相关操作进行管理。
研究的创新点及重、难点
一般来说网络结构是由N个复杂的树形结构组成,其形状表现为二维或三维网络。
而为了构建一个立体的知识网络,对各知识点之间的关系设定、树形结构存储、遍历、节点路径等问题的处理显得非常重要。
此模块主要负责两个问题:
一是为用户提供清晰、立体的知识网络;二是为用户提供一个寻找节点间路径的方法。
Lucene.Net的工作流程如下:
(1)由于是为数据库中的内容建立全文索引,所以建立与数据库的连接。
(2)利用IndexWriter创建索引;IndexWriter是Lucene.Net的索引器,其主要作用是对索引进行创建,加入Document。
其构造函数IndexWriter(Directoryd、Analyzera、boolcreate)中的参数分别代表索引路径,使用哪种分词类,是否重建索引[5]。
(3)将需要检索的数据(本文为数据表中的字段信息)转换为Document的Field对象,然后将Document添加到索引文件中;
(4)搜索:
利用QueryParser类对查询字符串的解析,将查询关键词转换为搜索用的Query;使用IndexSearcher进行检索;在本系统中用到的是Lucene.Net的多字段检索及多索引目录搜索,多索引目录搜索就是要在多个索引目录中进行比较搜索,类似概念在SQL中就是select*fromTableAunionselect*fromTableB。
用到的检索语句为:
IndexSearcher[]searchers=newIndexSearcher[2];
searchers[0]=newIndexSearcher(IndexPath0);
searchers[1]=newIndexSearcher(IndexPath1);
MultiSearchermultisearcher=newMultiSearcher(searchers);
(5)检索结果的显示:
Hits类取得查询得到的内容。
研究进程安排
在我们研究的搜索引擎模块中,对于全文检索的实现,使用了Lucene.Net技术,将Sql的模糊检索改进为Lucene下多条件字段和多索引目录的全文检索,并将Lucene.Net的全文检索技术与SQLServer的索引技术相结合,构建了一个新型的搜索引擎模块,大大提高了检索效率和检索的精确度。
首先是将相应的规则通过.net语言存进数据库系统中,然后通过Lucene.Net技术实现对信息的检索。
主要参考文献
[1]WELSHET,WANBERGCR,BROWNKG.etal.Elearning:
emerginguses,empiricalresultsandfuturedirections[J].InternationalJournalofTrainingandDevelopment,2003,7(4):
245-258.
[2]谭文堂,贺明科,李阜.基于Lucene.Net的分布式全文检索系统[J].计算机应用与软件,2009,26(9):
142-145.
[3]丘哲,符滔滔,王学松.开发自己的搜索引擎[M].北京:
人民邮电出版社,2010.
[4]姚雄伟,刘莉,邸书灵,等.在数据库上实现一种高效显示的任意树形结构[J].河北省科学院学报,2005,22(4):
15-17.
[5]夏明伟,刘星沙.父子结点树的树枝串的形成方法[J].科技咨询导报,2007(13):
152-153.
其他说明
本文基于.net平台上的ASP.Net、SilverLight技术设计实现了一个小型搜索引擎系统,对系统中各个模块的功能进行了简要概述。
指导教师意见
指导教师签名:
年月日
指导教师小组意见
指导教师小组负责人:
年月日
院(系)审核意见
1.通过;2.完善后通过;3.未通过
负责人:
年月日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- net 小型 搜索引擎 系统 开题 报告
![提示](https://static.bdocx.com/images/bang_tan.gif)