070723B搜索引擎系统应用实践大纲.docx
- 文档编号:9272779
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:23
- 大小:39.76KB
070723B搜索引擎系统应用实践大纲.docx
《070723B搜索引擎系统应用实践大纲.docx》由会员分享,可在线阅读,更多相关《070723B搜索引擎系统应用实践大纲.docx(23页珍藏版)》请在冰豆网上搜索。
070723B搜索引擎系统应用实践大纲
《搜索引擎系统应用实践》
课程编号:
070723B
课程类型:
□通识教育必修课□通识教育选修课
□专业必修课专业选修课
□学科基础课
总学时:
48讲课学时:
32实验(上机)学时:
16
学 分:
3
适用对象:
计算机科学与技术专业
先修课程:
数据库原理与应用、计算机网络技术与应用、商务智能与数据挖掘
一、教学目标
《搜索引擎系统应用实践》是为计算机科学与技术专业开设的选修课程。
通过本课程的学习,使学生深刻理解搜索引擎的基本原理,系统掌握搜索引擎的关键技术,并熟悉搜索引擎的发展方向和前沿问题,认识搜索引擎所涉及的相关领域。
通过本课程学习,应使学生具备开发搜索引擎的基本能力,以及从事搜索引擎方面研究的理论基础。
目标1:
掌握搜索引擎的工作原理及关键技术。
目标2:
利用开发工具及开源包搭建简单的搜索引擎。
目标3:
掌握搜索引擎的主要优化方法。
搜索引擎技术是一门综合性的互联网关键技术。
作为互联网发展中至关重要的一种应用,它能自动发现和搜集网络资源,并对其解析、索引和组织,在此基础上提供检索服务。
本课程内容涉及中文信息处理方法、爬行程序、网页倒排索引数据结构和网页数据库组织、查询处理与网页排序、检索模型等。
本课程由浅入深,既有深入的理论分析,也有大量的实践内容,具有学习和实用双重意义。
本课程的开设,拉近了理论教学与实际应用的距离,学生在学习基础理论知识的同时可以很好地了解其在实际产品和企业中的应用,不仅可以指导学生择业,同时也为企业提供了展示企业文化、了解和选择学生的机会
二、教学内容及其与毕业要求的对应关系
本课程的核心内容包括搜索引擎技术和搜索引擎优化两部分。
搜索引擎技术部分系统讲述互联网搜索引擎的工作原理、实现技术及其系统构建方案,从基本工作原理开始,到一个小型简单搜索引擎实现的具体细节。
搜索引擎优化部分系统介绍网站内部优化和网站外部优化,包括关键字策略、URL优化、代码优化、图片优化、网页结构、网站结构、链接策略等。
课程的最终目的是让学生学会搭建简单的搜索引擎系统,并对其进行优化。
根据教学目标,拟采用的教学方法:
课堂讲解、案例教学与上机操作相结合。
课堂讲解基本概念和核心知识,讲授和讨论相结合领会知识要点,课堂讲解以方法的应用为主线,系统叙述与搜索引擎有关的基本概念、基本原理和相关知识,使学生尽快掌握数据搜索引擎系统的基本概念,基本方法和应用背景;案例教学训练解决问题的能力;上机实践环节主要以Eclipse为IDE、使用Java语言进行实践操作,以加深学生对教学内容的理解和掌握。
学生学习时应该提纲挈领地掌握搜索引擎三个主要组成部分的原理与内容,除了按照指定的教材进行预习外,还要参考大量的参考文献,通过课后思考和练习题进行多角度和层次的反复学习。
本课程使用搜索引擎的开源包Heritrix和Lucene在Java环境下进行上机操作。
通过上机实践加深对本课程理论知识的理解,掌握网页抓取、文本内容提取、分词、索引以及信息查询等内容。
本课程涉及的内容广泛,很多内容需要学生课后学习,以提高学生的自学能力;同时,尽可能做到把理论知识与实际应用相结合,提高学生的动手能力与解决实际问题的能力。
三、各教学环节学时分配
以表格方式表现各章节的学时分配,表格如下:
教学课时分配
序号
章节内容
讲课
实验
其他
合计
1
搜索引擎概述
2
2
2
搜索引擎总体结构
2
2
3
网络爬虫的原理与应用
5
2
7
4
文本内容提取
3
1
4
5
中文分词的原理与实现
4
2
6
6
信息索引技术
4
1
5
7
信息查询与评价技术
4
2
6
8
利用开源工具构建小型搜索引擎
2
3
5
9
搜索引擎优化SEO
4
3
7
10
使用Solr实现企业搜索
2
2
4
合计
32
16
48
四、教学内容
第一章 搜索引擎概述
第一节搜索引擎简介
1.搜索引擎的概念
2.搜索引擎的原理
第二节搜索引擎的历史与发展趋势
1.搜索引擎的发展史
2.搜索引擎的发展趋势
第三节搜索引擎的分类
1.全文搜索引擎
2.目录索引搜索引擎
3.元搜索引擎
4.分布式搜索引擎
第四节搜索引擎的关键技术
1.信息收集和存储技术
2.信息预处理技术
3.信息索引技术
教学重点、难点:
搜索引擎的概念、原理与关键技术。
课程的考核要求:
通过本章的学习,使学生
了解:
搜索引擎的发展、搜索引擎的分类、常用的搜素引擎。
理解:
搜索引擎的分类。
掌握:
搜索引擎的关键技术。
复习思考题:
1.简述搜索引擎的定义。
2.目前常用的搜索引擎有哪些?
3.查文献撰写目前中文搜索引擎的研究进展。
4.简述建立搜索引擎的关键技术。
5.在XX上查找带双引号的“搜索引擎”和不带双引号的搜索引擎,比较查找所用的时间和找到的相关项,解释为什么会是这样的结果。
第二章 搜索引擎总体结构
第一节搜索引擎基本模块
1.搜索器
2.索引器
3.检索器
4.用户接口
第二节搜索引擎的工作原理
1.网页搜集
2.网页处理
3.查询服务
第三节搜索引擎的数据结构
1.存储结构
2.信息库
3.文本索引
4.词典
5.采样表
6.前向索引
7.后向索引
第四节元搜索引擎
1.元搜索引擎的基本构成
2.元搜索引擎的分类
3.常用元搜索引擎
4.元搜索引擎的特点
5.主要技术指标
第五节个性化搜索引擎
第六节智能搜索引擎
教学重点、难点:
搜索引擎的工作原理、搜索引擎的数据结构。
课程的考核要求:
通过本章的学习,使学生
了解:
元搜索引擎、个性化搜索引擎、智能搜索引擎。
理解:
搜索引擎的体系结构。
掌握:
搜索引擎的工作原理、搜索引擎的数据结构。
复习思考题:
1.搜索引擎由哪几部分组成?
2.简述搜索引擎的工作原理。
3.查资料了解搜索引擎的评价指标和参数。
4.比较元搜索引擎和独立搜索引擎的优缺点。
5.分别使用万维搜索()和搜狗(http:
//)搜素关键词“搜索引擎”,比较搜索结果。
第三章 网络爬虫的原理与应用
第一节爬虫的基本原理
第二节爬虫架构
1.基本架构
2.分布式爬虫架构
3.垂直爬虫架构
第三节网页抓取优先策略
1.深度优先策略
2.广度优先策略
3.最佳优先策略
4.不重复抓取策略
5.网页重访策略
6.网页抓取提速策略
第四节抓取网页
1.下载网页的基本方法
2.网页更新
3.抓取限制应对方法
4.URL地址提取
5.抓取动态页面
6.抓取即时信息
7.信息过滤
第五节存储URL地址
1.BerkeleyDB
2.布隆过滤器
第六节并行抓取
1.多线程爬虫
2.垂直搜索的多线程爬虫
3.异步I/O
第七节链接分析
1.存储WEB图
2.PAGERANK算法
3.HITS算法
4.主题相关的PAGERANK
教学重点、难点:
网络爬虫的基本原理、网页抓取优先策略。
课程的考核要求:
通过本章的学习,使学生
了解:
并行抓取、Web图的存储和挖掘算法。
理解:
抓取网页的实现、PAGERANK算法。
掌握:
网络爬虫的基本原理、网页抓取优先策略。
应用:
使用PAGERANK算法计算网页的PageRank值。
复习思考题:
1.简述搜索引擎中爬虫的工作原理。
2.除了介绍的开源爬虫外,查资料了解还有哪些搜索引擎爬虫,它们有何特点。
3.从网上下载Jspider爬虫,抓取指定的一个网站,然后分析下载后网页的特点。
4.简述深度优先策略和广度优先策略,并比较它们的特点。
5.除普通搜索引擎之外,还有很多特殊的搜索引擎,查资料了解网页库级垂直搜素引擎所使用的技术及特点。
6.简述布隆过滤器的基本工作原理。
7.编写robots.txt文件,禁止所有搜索引擎爬虫抓取/main/目录,以及/www/目录下的index.html文件。
8.简述PageRank算法中入链对计算页面级别的影响,并进行简单计算。
9.简述PageRank算法中出链对计算页面级别的影响,并进行简单计算。
10.PageRank的原理就是对网页的链接进行分析,反向链接越多,网页越重要,如下图所示的一个网页链接的关系图,根据PageRank的计算公式对网页的pr值进行跌代计算,直到每个网页的PR值稳定为止,列出最终的PR值(假设初始每个网页的pr值为0.33,计算结果小数点后取一位数)。
11.
12.网页的结构如下图所示,写出分别采用深度优先遍历和广度优先遍历策略对上图进行遍历的结果。
第四章 文本内容提取
第一节从HTML文件中提取文本
1.识别网页的编码
2.网页编码转换为字符串编码
3.使用正则表达式提取数据
4.结构化信息提取
5.网页的DOM结构
6.使用NEKOHTML提取信息
7使用JSOUP提取信息
8.网页去噪
9.网页结构相似度计算
10.提取标题
11.提取日期
第二节从非HTML文件中提取文本
1.提取标题的一般方法
2.PDF文件
3.WORD文件
4.RTF文件
5.Excel文件
6.PowerPoint文件
第三节存储提取内容
教学重点、难点:
从各种数据源中提取索引多需要的文本信息。
课程的考核要求:
通过本章的学习,使学生
了解:
各种文档格式处理方式、流媒体内容提取。
理解:
存储提取内容。
掌握:
从HTML文件和非HTML文件中提取文本的方法。
应用:
各种文件提取文本内容的实现。
复习思考题:
1.为什么要对网页的信息进行结构化?
2.网页结构化的目标有哪些?
3.制作一个简单的网页,然后制作成一个DOM树。
4.简述文本处理的过程及步骤。
第五章 中文分词的原理与实现
第一节Lucene中文分词
1.Lucene切分原理
2.Lucene中的Analyzer
3.自己写Analyzer
4.Lietu中文分词
第二节查找词典算法
1.标准Trie树
2.三叉Trie树
第三节中文分词
1.中文分词的原理
2.中文分词的流程与结构
3.形成切分词图
4.概率模型分词
5.N元分词
6.新词与未登录词
第四节词性标注
1.隐马尔可夫模型
2.基于转换的错误学习方法
第五节平滑算法
教学重点、难点:
分词中的查找词典算法。
课程的考核要求:
通过本章的学习,使学生
了解:
新词发现、未登录词识别、平滑算法。
理解:
Lucene切分原理与流程、Lucene中的Analyzer。
掌握:
查找词典算法、概率语言模型分词法、词性标准。
复习思考题:
1.简述常用的中文分词的方法。
2.上网查找有关中文分词的程序,并比较这些程序的优缺点。
第六章 信息索引技术
第一节顺排检索
1.表展开法
2.逻辑树展开法
3.BF算法
4.KMP算法
5.BM算法
第二节倒排索引
1.倒排索引
2.倒排文档
3.逆波兰表达式
4.检索指令表的生成
5.检索实施
第三节后缀数组索引
1.后缀树概念
2.后缀树原理
3.后缀树存储
4.后缀树的构造
5.后缀数组
6.后缀数组生成算法
第四节文本压缩技术
1.基本概念
2.统计方法
3.字典方法
4.倒排文档压缩
教学重点、难点:
信息索引技术中的倒排文档索引、后缀数组索引和文本压缩技术。
课程的考核要求:
通过本章的学习,使学生
了解:
了解顺排文档索引。
掌握:
倒排文档索引、后缀数组索引和文本压缩技术。
应用:
使用统计方法和字典方法进行文本压缩。
复习思考题:
1.何为顺排文档检索?
其主要特点是什么?
2.倒排文档索引与顺排文档索引的主要区别是什么?
3.画出science字符串的后缀树。
4.现有8个待编码的符号m0,…,m7,它们的概率如表6.1所示。
使用霍夫曼编码算法求出这8个符号所分配的代码,并填入表中。
表6.1
待编码的符号
概率
分配的代码
代码长度(位数)
m0
0.40
m1
0.20
m2
0.15
m3
0.10
m4
0.07
m5
0.04
m6
0.03
m7
0.01
5.字符流的输入如表6.2所示,使用LZW算法计算输出的码字流,并将码字流中的码字填入表6.3对应的位置。
表6.2
输入位置
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
…
输入字符流
a
b
a
b
c
b
A
b
a
b
a
a
a
a
a
a
a
…
输出码字
表6.3
步骤
位置
词典
输出码字
(1)
a
(2)
b
(3)
c
1
1
2
…
9
…
6.对下列的文档先进行分词再建立倒排索引,索引列表中要包含文档编号和每个词出现的频率。
(1)农业银行行长跳槽中国银行
(2)农业银行行长加盟中国银行
(3)农业银行行长张云离开农行加盟中国银行
(4)农业银行行长跳槽中国银行与职位调整有关
(5)农业银行行长张云加盟工商银行
第七章 信息查询与评价技术
第一节检索模型
1.经典模型
2.代数模型
第二节检索方法
1.布尔检索
2.加权检索
3.全文检索
4.超文本检索
第三节查询服务
1.查询器原理
2.搜索引擎检索过程
3.指定范围搜索
4.搜索结果排序
5.搜索页面的索引缓存与更新
6.自动摘要生成
第四节相关性
1.相关性的特征
2.相关性类别
3.相关性模型
第五节用户界面
1.历史搜索词记录
2.关键词高亮显示
3.分类统计视图
4.搜索联想词
5.其它功能
第六节搜索引擎评价指标
1.有效性
2.查全率和查准率
3.其他评价指标
教学重点、难点:
检索模型、检索方法、查询服务和检索性能评价。
课程的考核要求:
通过本章的学习,使学生
了解:
搜索引擎评价指标。
理解:
相关性特征、相关性类别和相关性模型。
掌握:
检索模型、检索方法、查询服务。
复习思考题:
1.什么是布尔模型?
比较布尔模型和向量空间模型的优缺点。
2.简述概率模型的理论并举例说明其应用。
3.布尔检索使用了哪些运算符?
这些运算符哥有何作用?
4.有哪些种类的加权检索?
各有哪些特征?
5.全文检索的主要技术指标有哪些?
6.如何提高全文检索的效率?
7.上网查询有关Web信息检索的关键技术,并撰写相关的论文。
8.何为相关性?
相关性模型有哪些?
各有什么特点?
9.如何评价信息检索系统的有效性?
10.用几个搜索引擎检索自己感兴趣的内容,评价比较各个系统检索的性能。
第八章 利用开源工具构建小型搜索引擎
第一节实例简介
1.搜索引擎的体系结构
2.网页搜集
3.网页预处理
4.查询服务
第二节环境搭建与配置
1.JDK的安装与配置
2.Eclipse的安装与配置
3.Tomcat的安装与配置
4.Heritrix的安装与配置
第三节网页搜集
1.设置Heritrix抓取任务
2.修改Heritrix源代码
3.抓取网页
第四节网页预处理
1.原始网页的处理
2.建立简单的索引
3.为实例建立索引
第五节查询服务
1.结构设计
2.查询设计
3.预搜索设计
4.页面设计
5.网页快照实现
6.部署到Tomcat
教学重点、难点:
用实例构建一个简单的搜索引擎,包含搜索引擎最主要的三个部分,并能提供基本的搜索服务。
课程的考核要求:
通过本章的学习,使学生
了解:
Lucene中形成索引的几个关键组件、搜索结果的评分。
掌握:
配置网络爬虫、建立索引和建立搜索。
应用:
构建一个简单的搜索引擎。
复习思考题:
1.搜索引擎结构可以划分几个模块,简述每个模块的功能。
2.下载开源网络爬虫Heritrix的源程序,配置网络爬虫,创建一个新的抓取任务并运行和完成抓取。
3.过滤原始网页,计算网页的重要度,并生成摘要。
4.使用IndexWriter建立索引,了解Lucene中形成索引的几个关键组件。
5.使用IndexSearcher进行搜索,了解对搜索结果的评分。
并构建各种类型的搜索,如词条搜索、布尔搜索、前缀搜索、短语搜索、模糊搜索、通配符搜索等。
6.构建一个简单的搜索引擎,熟悉Lucene和Heritrix的使用。
第九章 搜索引擎优化SEO
第一节SEO简介
1.SEO的定义
2.SEO的发展
3.SEO与网站的收录
4.SEO与搜索引擎排名
5.SEO的主要工作
6.SEO的应用
第二节关键词分析与优化
1.选择关键词
2.挖掘关键词
3.网站关键词布局及表现形式
第三节网站的各个页面分析与优化
1.了解网页的结构
2.网页结构对SEO的影响
3.网页中的关键词优化
4.动态网页的SEO的制作
5.网页冗余代码优化
6.页面图片优化
第四节内容和链接的分析与优化
1.内容优化
2.内部链接优化
3.外部链接建设
4.交换链接
5.URL优化方法
第五节SEO效果分析
1.网站流量分析
2.流量来源分析
3.网站页面一般分析
4.页面、内链、外链质量分析
5.网站用户属性分析
6.网站日常分析
第六节SEO工具
1.XX统计
2.站长管理工具
3.其他工具
教学重点、难点:
网站内部优化、网站外部优化。
课程的考核要求:
通过本章的学习,使学生
了解:
SEO的发展与应用、SEO工具。
理解:
SEO效果分析。
掌握:
页面分析与优化、内容优化、链接的分析与优化。
应用:
使用各种优化方法对网站进行优化。
复习思考题:
1.简述网站的日常分析方法。
2.简述URL优化方法。
3.简述网页内容优化的主要内容。
4.简述内部链接优化的主要内容。
5.简述外部链接建设的的主要方面。
6.简述各种链接策略的实现方法。
7.为什么要对网页进行分析,简述网页分析系统的步骤。
8.搜索引擎系统的效率和效果都对用户的需求有重要的影响?
现有的搜索引擎系统应从哪几个方面能够提高搜索引擎系统的效果和效率?
第十章 使用Solr实现企业搜索
第一节Solr简介
第二节Solr基本用法
1.Solr服务器端的配置
2.把数据放进Solr
3.删除数据
4.Solr客户端与搜索界面
5.Spring实现的搜索界面
6.Solr索引库的查找
7.索引分发
8.Solr搜索优化
第三节Solr扩展与定制
1.Solr中字词混合索引
2.相关检索
3.搜索结果去重
4.定制输入输出
5.分布式搜索
6.SolrJ查询分析器
7.扩展SolrJ
8.扩展Solr
9.查询Web图
教学重点、难点:
企业级的搜索服务器Solr的基本用法、对Solr服务器和客户端的扩展,其中对Solr服务器和客户端的扩展是难点。
课程的考核要求:
通过本章的学习,使学生
了解:
了解Slor的两种部署方式。
理解:
Solr扩展与定制。
掌握:
Solr基本用法。
应用:
使用Solr实现企业搜索。
复习思考题:
1.简述Slor的两种部署方式。
2.简述Solr服务器端的配置。
3.简述常用的Solr客户端。
五、考核方式、成绩评定
本课程的考核分为平时考核及期末考核相结合的方式,平时成绩占40%,期末考试成绩占60%。
平时考核采用课下调研撰写报告、课堂案例讨论和上机操作实践等方式,分配比例根据实际任务进行调整。
期末考核采用开卷形式,试题内容以考核学生基本概念、基本理论、基本技能为主,要注重知识应用能力和解决问题能力的考核上,而知识点的记忆和理解要服务于学生能力的提高和巩固。
六、主要参考书及其他内容
[1]刘凡平.大数据搜索引擎原理分析及编程实现.北京:
电子工业出版社.2016年7月
[2]罗刚.解密搜索引擎技术实战:
Lucene&Java精华版(第2版).北京:
电子工业出版社.2016年1月
[3]山田浩之[日],末永匡[日]著.胡屹译.自制搜索引擎.北京:
人民邮电出版社.2016年1月
[4]痞子瑞.SEO深度解析——全面挖掘搜索引擎优化的核心秘密(第2版).北京:
人民邮电出版社.2016年6月
[5]郑杰.SEO搜索引擎优化:
原理+方法+实战.北京:
人民邮电出版社.2017年1月
[6]潘坚.XXSEO一本通.北京:
电子工业出版社.2015年6月
[7]成龙.Lucene搜索引擎开发进阶实战.北京:
机械工业出版社.2015年1月
[8]李晓明,闫宏飞,王继民著.搜索引擎——原理、技术与系统(第二版).北京:
科学出版社.2012年5月
[9]张俊林.这就是搜索引擎:
核心技术详解.北京:
电子工业出版社.2012年1月
[10]袁津生,李群.搜索引擎基础教程.北京:
清华大学出版社.2010年7月
[11]刘奕群,马少平,洪涛,刘子正.搜索引擎技术基础.北京:
清华大学出版社.2010年7月
[12]W.BruceCroft,DonaldMetzler,TrevorStrohman.刘挺等译.SearchEnginesInformationRetrievalinPractice.北京:
机械工业出版社.2010年6月
执笔人:
教研室主任:
系教学主任审核签名:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 070723 搜索引擎 系统 应用 实践 大纲
![提示](https://static.bdocx.com/images/bang_tan.gif)