数据挖掘在远程教育网站建设中的研究Word文档下载推荐.docx
- 文档编号:17205864
- 上传时间:2022-11-28
- 格式:DOCX
- 页数:22
- 大小:142.13KB
数据挖掘在远程教育网站建设中的研究Word文档下载推荐.docx
《数据挖掘在远程教育网站建设中的研究Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据挖掘在远程教育网站建设中的研究Word文档下载推荐.docx(22页珍藏版)》请在冰豆网上搜索。
远程教育网站建设是远程教育建设的一个重要部分,在网站建设中包括数量庞大的信息记录、网页、网站访问日志、用户信息、信息数据库等等。
目前,对这些庞大信息的利用多限于基于数据库管理系统的查询,基于网站结构对网页的浏览等。
随着时间的推移积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,挖掘数据背后隐藏的知识的手段,以便更好地利用这些数据。
目前远程教育网站有以下几点不足:
(1)缺乏个性化。
现有的远程教育站点不能根据学生本人的情况因材施教,缺乏个性化教学。
无论哪个学生访问该站点,其教学策略,教学内容及授课顺序都是一样的,站点不能根据学生的自身情况提供适合于他个人的学习习惯及学习进度安排,结果使学生的个性无法发挥。
(2)网站结构不合理。
传统的教育模式正在向远程教育模式逐渐转变,在这种转变过程中急需解决的一个问题是网站教学内容的组织结构。
在传统教育中,主要是由教师来引导学生选择哪些课程、怎样学习等等,而在远程教育中所有的这些行为都是由学生来主动完成的。
由于教学网站包含的内容是面向多学科专业、不同层次的学生,因此通常一个网站所包含的网页文件数以万计。
可以想象,如果网站设计者不将网站的内容、结构设计好,学生将会花费大量的时间在寻找目标网页上。
这样不但大大降低了网站的效率,更严重的是使学生失去了学习的兴趣,对于远程教育的推广和发展是非常不利的。
(3)用户分类不合理。
现有的部分远程教育站点大多数是根据学生所在年级和专业给学生加以分组聚类,对于在同一组中的学生布置同样的学习内容,使得这对于那些学习进度超前的学生为了保持和大家同步而放慢学习进度,相反对于那些学习后进的同学为了追赶大家的进度而忽略甚至放弃某些教学内容的学习,至使后面的学习更加困难。
本课题的目的是通过数据挖掘技术、Web挖掘技术,利用远程教育网站上积累了大量有用的信息,如:
用户注册信息,登录信息,浏览路径信息,交流信息,学习状态信息,学习进度信息等,改善远程教育网站的性能,建立一个智能化、个性化的远程教育环境,促进远程教育技术的进一步完善和发展,提高远程教育的自主性。
在能够充分满足受教育者个性化的学习要求,在学习上给受教育者以更大的自主权。
在现代远程教育开放式学习平台上,使学员可以按照自己的学习基础、学习兴趣和学习要求来选择所学的内容和学习方式。
对于远程教育网站而言,采用数据挖掘技术,可以解决以下问题:
(1)对网站的修改更加有目的、有依据,稳步地提高用户满意度。
根据用户访问模式修改网页之间的链接,把用户想要的信息以更快、更有效的方式展现给用户。
对站点上保存的学习行为和学习记录信息进行挖掘,并结合课件知识库的信息,自动重组课程的内容,使之更符合教学规律,并结合内容,提供其他相关学习资源。
通过对学习者学习行为的挖掘,发现用户的浏览模式,自动重构页面之间的链接,以符合用户的访问习惯。
(2)发现用户的需要和兴趣,对需求强烈的网页提供优化,用服务器预先存储的方法来解决下载缓慢的问题。
或是对网页之间的关系进行分析,更好得将网页进行分类,做出合理的推荐和预测。
(3)提供个性化网站。
针对不同的用户,按照其个人的兴趣和爱好,向用户动态提供浏览的建议,自动提供个性化的网站。
针对不同的学生,提供不同的学习内容和学习模式,真正做到因材施教,并对学生的学习记录进行保存。
可以利用访问日志和用户信息发现某些类型的用户只关心某种类型的网页,这样就可以提供个性化网站服务,针对不同的用户提供不同的网页,以使得访问效率提高。
2.数据挖掘和Web挖掘
2.1数据挖掘
随着计算机技术的发展,特别是数据库管理系统的广泛应用,人们积累的数据越来越多。
庞大的数据背后隐藏着许多重要的信息,但在庞大数据中发现隐藏的关系和规则却不是件容易的事。
如何解决“数据爆炸但知识贫乏”的现象,这一疑问直接促成了数据库中的数据挖掘技术的产生。
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
它是利用各种分析工具在海量数据中发现模式和数据间关系的过程,这些模式和关系可以用来做出描述和预测。
与数据挖掘这个词意思相近的术语还有:
知识挖掘(KnowledgeMining)、知识获取(KnowledgeExtraction)、模式分析(PatternAnalysis)等。
还有一个经常与之相混的术语:
知识发现KDD(KnowledgeDiscoveryfromDatabase),一般的看法是DM只是KDD的一个步骤(见图1)。
但是由于数据挖掘这个词的广泛使用,也可不进行严格的区分而把数据挖掘和知识发现看成同义词,一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。
图1中知识发现的过程就是数据挖掘的一般过程。
图1知识发现的过程
2.1.1数据挖掘系统的体系结构
数据挖掘技术是在20世纪80年代被提出来的,并在90年代取得了长足的发展,是当今数据库系统及其应用领域中的一个热点话题。
数据挖掘技术的研究和开发要涉及到多个领域的知识,如:
数据库技术、人工智能、神经网络、统计科学、模式识别、知识库、知识获取技术、信息索引技术、高性能计算以及数据的可视化等。
一个典型的数据挖掘系统的体系结构如下(图2):
图2一个典型的数据挖掘系统
其中,数据库、数据仓库或者是其他一些信息存储媒介为数据挖掘的工作对象;
服务器主要是响应数据挖掘引擎的请求,提取相应的数据;
领域知识库主要用来指导挖掘的过程,以及用来评价挖掘出来的候选模式;
数据挖掘引擎是整个系统的核心部分,可以由以下模块组成:
分类模块、关联规则模块、聚类分析模块、时序模块和异常分析模块等;
模式评价模块主要是根据一定的度量标准来与数据挖掘模块交互,以使得数据挖掘向着用户感兴趣的方向进行,往往越是高效的数据挖掘系统这种交互影响的程度越高;
图形用户界面主要是为方便用户与数据挖掘系统的交互,由用户提出挖掘任务、指定重要的挖掘参数以及由当前返回的结果指导进行更进一步的挖掘工作。
2.1.2数据挖掘的任务和分类
数据挖掘的任务是从数据中发现模式。
模式是一个用语言L来表示的一个表达式E,它可用来描述数据集F中数据的特性,E所描述的数据是集合F的一个子集FE。
E作为一个模式要求它比列举数据子集FE中所有元素的描述方法简单。
例如,“如果成绩在81~90之间,则成绩优良”可称为一个模式,而“如果成绩为81、82、83、84、85、86、87、88、89或90,则成绩优良”就不能称之为一个模式。
模式有很多种,按功能可分为预测型(Predictive)模式和描述型(Descriptive)模式。
预测型模式是可以根据数据项的值精确确定某种结果的模式,挖掘预测型模式所使用的数据是明确知道结果的。
例如,根据各种动物的资料,可以建立这样的模式:
凡是胎生的动物都是哺乳类动物。
当有新的动物资料时,就可以根据这个模式判别此动物是否是哺乳动物。
描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。
描述型模式不能直接用于预测。
例如,在地球上,70%的表面被水覆盖,30%是土地。
按模式的实际作用,可将模式分为以下6种:
(1)分类模式
分类模式是一个分类函数(分类器),能够把数据集中的数据项映射到某个给定的类上。
分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。
(2)回归模式
回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。
如给出某种动物的特征,可以用分类模式判定这种动物是哺乳动物还是鸟类;
给出某个人的教育情况、工作经验,可以用回归模式判定这个人的年工资在哪个范围内,是在6000元以下,还是在6000元到1万元之间,还是在1万元以上。
(3)时间序列模式
时间序列模式根据数据随时间变化的趋势预测将来的值。
这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力)等。
只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。
(4)聚类模式
聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。
与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪几个数据项来定义组。
一般来说,业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段重新组织数据。
(5)关联模式
关联模式是数据项之间的关联规则。
关联规则是如下形式的一种规则:
“在无力偿还贷款的人当中,60%的人的月收入在3000元以下。
”
(6)序列模式
序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。
为了发现序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。
例如,在购买彩电的人们当中,60%的人会在3个月内购买影碟机。
在解决实际问题时,经常要同时使用多种模式。
分类模式和回归模式是使用最普遍的模式。
分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式前数据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在受监督的情况下进行的。
一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据来检验、校正模式。
聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立前结果是未知的,模式的产生不受任何监督。
2.2Web挖掘
Web挖掘是利用数据挖掘技术从大量的Web数据中发现有用模式和信息的过程。
Web挖掘可以提高系统的性能:
对网站进行有目的、有依据的修改,调整网站中网页的链接结构和内容,设计出满足多数学生群体需要的网站,提高学生的学习效率;
利用预测模式,预测用户的网页浏览,提高WebCaching的性能,以改善网络的传输效能,或是将一些网页预先放在用户端,避免再次请求时重新下载的延迟;
根据发现的用户喜好,动态地为用户定制观看的内容或提供浏览建议,保证网站提供个性化服务。
图3所示的是修改网页的链接,提高网站性能;
图4所示的是通过缓存改善网络性能。
Web挖掘可以细分为Web内容挖掘、Web结构挖掘和Web使用挖掘。
其中内容挖掘是从文件内容及其描述中获取有用的信息的过程;
而结构挖掘则是从人为的链接结构中获取有用的知识的过程;
使用记录挖掘是从Web的存取模式中获取有价值的信息的过程。
它的基本过程可以归纳为:
数据收集、数据预处理、模式发现、知识表示。
本文主要是利用Web挖掘改善网站的结构、提高网站的个性化。
2.2.1数据收集
这个过程的主要工作是通过服务器端、客户端或网络代理端,收集对下面工作有意的数据。
数据收集的好坏将直接影响模式发现的准确性。
我们可以利用的Web数据主要包括:
内容(Content),也就是网页上的真正数据;
结构(Structure),包括网页内部各部分是如何组织的,以及网页之间的链接信息;
使用(Usage),网页被人使用的记录;
用户资料(UserProfile),此网站的用户注册资料。
服务器端可以收集的数据有Web服务器的log,记录了每一次网页请求信息;
通过记录Cookies和CGI的查询参数来描述各个不同用户的行为;
网站自身的内容和结构。
这种方法收集数据的不足之处在于,Web环境中的各种Cache记录不十分准确,另外用POST方法传送的参数没有记录下来。
客户端数据收集的优点是可以比较全面和准确收集到用户数据。
通过Javascripts或JavaApplets能记录用户所有的行为,但有效率问题,而且该项功能可能被用户关闭。
网络代理端数据收集不仅可以收集多个用户的行为,还可以收集对多个网站的行为。
这种数据收集方法适合有大量静态页面的网站。
2.2.2数据预处理
在数据预处理之前,先了解一下由WCA(W3CWebCharacterizationActivity)定义的数据抽象:
表1数据抽象
Users
通过浏览器浏览网页的个体。
用户可通过不同的机器不同的代理浏览网站。
pageview
用户一次单击得到的浏览器的一个显示。
可能由许多文件构成。
一个pageview代表一次用户行为。
click-stream
是一系列pageview请求的序列。
usersession
一个用户浏览整个网站的一个click-stream。
serversession
一个网站的某用户的usersession中的click-stream。
也称为一个visit。
episode
usersession或seversession的一个有意义的子集。
这里的预处理过程主要是针对系统的log文件。
预处理的质量关系到后面模式发现和知识表示的质量。
预处理的过程包括数据清理、识别用户/事务、识别浏览页、识别有意浏览序列。
具体应用中可以选择性地实现一下部分。
(1)数据清理:
在网站的log文件中有许多是与挖掘算法无关的数据,数据清理就是清除掉这些数据。
(2)用户识别:
由于本地缓存、防火墙和代理的存在,给用户识别带来了困难,常采用的方法是基于日志/站点的方法。
另外还有一些启发性规则来识别用户,比如如果用户的地址相同,但代理日志表明用户的浏览器或操作系统改变了,则假定这是两个不同的用户;
如果当前请求的页面同用户已浏览的页面之间没有链接关系,则认为是另外一个用户在使用相同的IP。
(3)事务识别:
在跨越时间区段较大的Web服务器日志中,用户可能多次访问了该网站,事务识别就是将用户访问的页面分成单个的事务。
(4)路径补充:
在访问日志中可能有一些重要的访问路径没有被记录下来,但是这些路径对用户会话的识别是很重用的,可以利用类似于用户识别的方法来进行路径补充。
2.2.3模式发现
从数据预处理的结果中,运用数据挖掘技术进行模式发现,是难度最大也是最重要的一步。
可以利用的方法有以下一些:
(1)统计分析
通过统计数据可以得到浏览最频繁的网页,每一个网页的平均被浏览时间,每一个网站的平均被浏览长度等等。
利用分析结论可以用于改进系统的性能、设计等。
(2)关联规则
通过关联规则算法可以找出经常频繁浏览的网页组合,用于修改网站的设计或提前缓冲页面,改进网络传输的性能。
(3)聚类和分类
可以对学生进行聚类和分类,针对不同特征的学生类提供不同的服务。
也可以对网页进行聚类和分类,用于搜索引擎和Web浏览助手,为用户提供推荐链接。
(4)序列模式
发现一个会话内部的网页间的时间相关性,用于预测用户的浏览,提供建议或提前缓冲。
2.2.4知识表示
目的是根据实际应用,通过用户的选择和观察,把发现的规则、模式和统计信息转换为知识。
2.3开发数据挖掘系统中应注意的问题
由于数据类型的多样性和数据挖掘的目标不同,开发一个通用数据挖掘系统是不现实的,只能针对不同的应用开发出不同的系统。
在开发数据挖掘系统过程中下列问题是要注意的。
(1)应用环境的选择
由于不是在任何应用环境中进行数据挖掘都是有意义的,而且数据挖掘系统会占用一定的处理器时间、存储空间。
因此,在进行系统开发之前,必须要进行科学的论证研究,分析在该应用系统上进行的数据挖掘是否有意义。
(2)数据源的选择
局域网和广域网联接了许多数据源,形成了庞大的、分布式的和异种的数据库,包含的数据也是千罗万象。
除了常用的关系数据库中的数据类型外,还有超文本和多媒体数据、空间数据、时间数据或事务数据。
针对不同的数据类型,会有相应的更适合的数据挖掘算法,形成不同的数据挖掘系统。
比如对于结构化的数据源的处理和非结构化数据源的处理在数据挖掘的整个过程中是不一样的。
因此,在开发数据挖掘系统之前,一定要先明确是在什么样的数据源上进行挖掘。
只有数据源确定好了,后续工作才能有针对性的进行。
(3)模式的选择
不同的应用环境和数据源,用户所感兴趣的模式是不一样的。
而模式的正确选择,才能保证整个系统的有效性。
如果已知数据源所属的类级,就应该采用分类模式;
如果未知,就应该采用聚类模式。
(4)综合背景知识
背景知识或研究领域的相关知识应用到挖掘系统中,可使得发现的模式更加简洁、准确。
(5)数据挖掘的交互性
由于很难准确的知道能够在数据源中发现什么,因此数据挖掘的过程应该是交互的。
系统根据用户的初始要求进行挖掘,将挖掘结果或中间结果反馈给用户,用户可以修改要求提交给系统重新挖掘,直到得到用户满意的结果。
(6)数据挖掘结果的表示和显示
最终发现的知识应当用高级语言、可视化表示或其它表示形式表示,使得知识易于理解,能够直接被人们使用。
因此系统必须采用有表达能力的知识表示技术,如树、表、规则、图、图表、交叉表、矩阵或曲线。
(7)模式评估
在数据挖掘系统发现的众多模式中,对于用户而言,一部分模式是没有意义的。
因此对于开发模式兴趣度的评估技术,要进行重点的研究。
3.基于Web-LogMining寻找目标网页最优期望定位
网站建设是远程教育的一个重要部分,目前远程教育网站建设的重点主要在充实丰富信息资源上,而对网站的访问效能没有过多的考虑。
网站的访问效能包括网站的结构是否清晰准确、网站能否提供个性化服务、能否对用户的访问给出合理的推荐和预测、网络的安全可靠性等等。
如果说网站信息资源的丰富是一个网站发展的基础的话,那么网站访问效能的提高就是网站发展的强大推进器。
在网站建设初期,网站的访问效能主要依靠网站管理员的手工设计和一些先验经验。
一般管理员会在一定的适用范围内进行调研,通过需求分析和论证设计出网站的结构和内容框架,较好的满足该范围内的使用,使网站具有较高的访问效能。
但随着网站被访问范围的扩大和信息资源内容的泛化,那种仅靠管理员先验经验手工设计的网站已不能很好的满足访问者的需要。
访问者希望能更快更准确的找到自己所感兴趣的网页内容,这就需要网站根据用户的需要调整网站结构和内容框架。
如果还是依靠管理员的经验去手工调整,时间效率和准确率都达不到要求。
实际上网站有数量庞大的信息记录、网页、网站访问日志、用户信息等内容可以提供给管理员作进一步的决策。
随着时间的推移积累,这些数据越来越多,数据背后隐藏的重要信息也越来越有用,本章节对Web日志文件进行挖掘,通过找到目标网页的最优期望定位,修改链接优化网站结构。
3.1相关基本概念
为了方便叙述,首先简单介绍本章节使用的几个基本概念。
概念1目标网页(TargetPage),也称知识点网页,与索引网页相对应,是访问者真正感兴趣的网页,一般包含视频文件、重要图片、大量文本等等。
在实际应用中区分一个网页是索引网页还是目标网页是有一定难度的。
一些商业网站比较容易区分,比如具体商品介绍的网页就认为是目标网页,分类网页就认为是索引网页。
但对于综合网站来说,目标网页与索引网页的划分就没有这么简单。
我们可以利用网页包含的内容来认为定义网页的性质;
也可以利用用户在该网页停留的时间长短来区分,一般认为超过10分钟的为目标网页,少于1分钟的为索引网页,两者之内的由网站管理员定义一个时间阀值来区分。
前者需要了解每个网页的内容,因此实现起来不太现实,在本文中我们采用后者来区分。
概念2目标网页的实际定位(ActualLocation),指该目标网页的父节点,一个目标网页的实际定位可以有多个。
概念3目标网页的期望定位(ExpectedLocation),假设CT为目标网页,多数访问者想从网页CE上找到去CT的链接,则CE就是CT的期望定位。
图5是一个树型结构的网站,用户的浏览序列是{1A,2A,3A,2A,3B,2A,1A,2C,9}。
假设用户的目标网页是{9}。
他从根网页1A开始,期望目标网页在网页2A的链接之下,从网页2A继续浏览网页3A,在网页3A上发现目标网页不在链接之下;
从网页3A后退到网页2A,再浏览3B,发现目标网页不在链接之下;
从3B后退到根发现目标网页不在链接之下,浏览2C,发现目标网页在链接之下,浏览结束。
在该例中,期望定位是网页3A和3B,而实际定位是网页2C。
图5网站结构图和用户浏览路径
概念4Web日志文件,是提供Web服务的服务器的日志文件(logfile),它包含所有所有访问者的浏览行为。
因此,Web日志在Web挖掘中占有很重要的地位,Web日志的格式如表2所示。
表2Web服务器日志格式
日期(date)
请求页面的日期、时间、时区
客户端IP(clientIP)
远程主机的IP或DNS入口
用户名(username)
远程登录的用户名
字节(bytes)
传递的字节(接收或发送的)
服务器(server)
服务器、IP地址、端口
请求(request)
URI查询和枝节
状态(status)
返回给HTTP状态名
服务名(servicename)
用户请求的服务名称
耗用时间(timetaken)
完成浏览的时间
协议版本(protocolversion)
完成传输的协议版本
用户代理(useragent)
服务提供者
Cookie
Cookie标识号
参照页(referrer)
本页的上一页
概念5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 远程教育 网站 建设 中的 研究