数据挖掘在学生成绩管理中的应用课设论文.docx
- 文档编号:23396363
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:24
- 大小:1.19MB
数据挖掘在学生成绩管理中的应用课设论文.docx
《数据挖掘在学生成绩管理中的应用课设论文.docx》由会员分享,可在线阅读,更多相关《数据挖掘在学生成绩管理中的应用课设论文.docx(24页珍藏版)》请在冰豆网上搜索。
数据挖掘在学生成绩管理中的应用课设论文
数据仓库技术在学生成绩管理中的应用
摘要:
本论文介绍了数据仓库、数据挖掘等基本概念性知识。
在设计中通过将搜集来的学生成绩原始数据进行清理、集成、变换等方法进行数据预处理后,建立学生成绩管理数据仓库,应用SQLServer2008中的联机分析处理技术从不同的维度分析各种数据,建立决策树挖掘模型对学生成绩进行定性分析,并对实验结果进行了分析和解释。
关键词:
数据仓库,数据挖掘,维度,学籍管理
TheApplicationofDataWarehouseTechnology
intheManagementofStudents
Abstract:
Thispapermainlyintroducethedatawarehouseanddatamining,andotherbasicconceptualknowledge.Inthedesignofcollectedbythestudentachievementoriginaldatacleaning,integration,transformmethodfordatapretreatment,setupstudents'performancemanagementdatawarehouseapplicationSQLServer2008ofon-lineanalyticalprocessingtechnologyfromdifferentdimensionstoobservewhethergradeshaveinfluencefactors,establishdecision-makingtreeminingmodelstudentachievementofqualitativeanalysis,andtheexperimentalresultsareanalyzedandexplained,usedtoguidetheschoolthedecisionmakerstomakechangethetalenttrainingschemeandguidestudentstolearnmoreeffectively.
Keywords:
datawarehouse,datamining,dimension,schoolmanagement
目录
1引言1
1.1数据仓库的研究现状及发展趋势1
1.2数据挖掘技术在教育领域中的研究现状及意义2
1.3研究内容3
2数据仓库的数据组织3
2.1数据仓库3
2.2数据仓库的特点3
2.3学生成绩数据库的实施4
2.4学生成绩数据仓库的概念模型设计4
2.5学生成绩数据仓库的逻辑模型设计5
3数据预处理10
4数据仓库的建设与OLAP的分析;11
4.1OLAP的概念11
4.2OLAP的特性11
4.3OLAP的基本活动12
4.4OLAP的实现方式12
5数据挖掘13
5.1数据挖掘的概念13
5.2数据挖掘的任务14
5.3学生成绩的多维分析14
5.4进行多维分析17
6结论19
1引言
如今人们利用信息技术生产和收集大量的数据,给我们的生活提供了很大的方便。
然而要想高效地管理、组织这些数据并对其进行分析并不是一件易事。
数据仓库和数据挖掘技术在这方面得到了广泛的应用,数据挖掘能从存放在数据仓库中的大量数据中挖掘出隐藏的有用知识。
高校中存在着学籍管理、成绩管理等各种数据系统。
在这些数据库中存储了大量的数据,学生成绩不仅对学生的学习效果和教师的教学效果具有检测作用,而且还能反馈教学活动,反作用于教师的教和学生的学。
在诸多高校的教务数据仓库中的学生成绩记录非常庞大,一般分为定量评价和定性评价。
定量评价也就是我们平时所说的某门课程考了多少分,而定性评价一般分优、良、中、差等四个级别。
数据库是从定性的角度分析学生成绩,缺点就是得到的结果不是很精确;而数据仓库是从定量的角度对学生成绩进行分析,能精确的得到各个方面的数据。
因此使用数据仓库和数据挖掘技术对学生成绩进行深层的分析,挖掘出隐藏在数据背后的规律或模式,根据挖掘结构提出一些指导性建议从而更好的指导教师教学,提高教学效率,提高学生的成绩。
本文利用数据挖掘技术,以我校教务管理系统为研究背景,从教务处网站导出近几年的学生成绩和教师、课程等各方面的信息数据,然后建立学生成绩数据仓库,并创建多维数据集和维度结构,从不同的维度观察学生的成绩,得出一些对比性数据。
最后应用数据挖掘技术对学生成绩进行挖掘,得出定性评价,根据这些挖掘结果有针对性的提出一些改进教学质量和提高学生成绩的措施。
1.1数据仓库的研究现状及发展趋势
数据仓库技术是20世纪90年代的一门新兴技术,它能有效地管理好数据,并对其进行存储和组织。
目前,数据仓库还没有一个统一的定义,著名的数据仓库专家W.H.Inmon对数据仓库概念有比较系统和全面的解释,他在其著作《BuildingtheDataWarehouse》一书中指出:
数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,它广泛应用于支持管理决策。
显而易见数据仓库不仅仅是一个数据集合,还是一个决策支持系统。
目前,国外企业所建立的数据仓库应用系统给他们都带来了明显的经济效益,但是金融业使用数据仓库只是完成简单的报表生成和日常业务分析,并没有对数据进行深入的挖掘分析,显然这样没有发挥出数据仓库的应用价值,所以并不能给银行等金融业带来真正的经济效益。
现阶段我国的数据仓库分析技术还没有多少经验。
使用数据仓库的关键是建立仓库模型,这就对设计者提出了要求,他们必须对相关的业务非常熟悉而且还应具备相应的管理分析能力。
数据仓库是一个很有发展前景的技术。
数据仓库技术包括对数据的抽取、存储与管理、数据表现和方法论等方面。
首先,要采用统一的数据结构即要统一信息系统的平台。
数据仓库技术未来的发展趋势:
在数据抽取方面,将会在系统集成化方面得到飞速的发展;在数据管理方面,数据库厂商将产生出数据仓库引擎,与数据库服务器同步发展;在数据表现方面,数理统计的算法和功能将应用到联机分析产品中。
当数据模型建好以后,就要在其上建立应用系统,进而在数据仓库上进行数据挖掘,构建决策支持系统,让所建的数据仓库发挥其有用的作用。
1.2数据挖掘技术在教育领域中的研究现状及意义
随着国家对教育的重视,学校也开始寻找各种可以提高学生成绩的途径。
根据不同考试的要求,找出学生的考试成绩中潜在的联系已成为各级高校和教育部门的需求。
把数据挖掘技术应用到教育领域,通过对数据库中的大量数据(特别是学生的成绩数据)进行抽取、转换,从中提取出对教学质量的改进有作用的数据。
当前,数据挖掘技术在教育领域中的应用主要有以下几个方面:
(1)教学管理系统方面。
把数据挖掘技术应用到教学管理中,建立教学管理挖掘系统,对其中的数据进行分析能得到传统的分析方法无法得到的潜在信息,因此学校可以利用这些信息知道教学的进程从而提高教学质量。
(2)高校教学质量评估方面。
通过对某一个院系学生的评价数据和授课教师的信息进行数据挖掘,采用分类、聚类、决策树、关联规则等数据挖掘方法对学生成绩进行挖掘,对挖掘结果进行分析,得出定性评价,找出影响教学质量的关键因素,为教学提供决策支持。
(3)网络教学方面。
把数据挖掘技术应用到网络教学方面,对教学信息数据进行挖掘,产生有利于提高网络教学质量的信息点,使得网络教学工作得到顺利开展。
数据挖掘技术中的关联规则可以发现两门或多门课程中存在的先行后续的关系,学生成绩与课程设置顺序之间存在的联系,从中可以找到影响学生成绩的原因。
1.3研究内容
在明确了我校教学管理系统的不足之后,试图将数据仓库和数据挖掘技术应用到教学管理中,首先对教学系统中大量的学生成绩数据进行分析和处理,利用SQLServer2008软件中的挖掘算法以学生成绩为核心挖掘潜在的规律及模式,得到影响学生成绩可能原因,有针对性地提出教学建议和课程安排次序,以帮助教育者制定教学计划,提高教学质量。
本文主要介绍了数据仓库、数据挖掘等基本理论知识和关联规则、聚类分析等基本算法;运用联机分析处理技术和决策树算法应用于所建立的学生成绩数据仓库中,对学生成绩进行深入挖掘,从教师、学生、课程等三个维度分析出学生成绩的规律性变化。
2数据仓库的数据组织
2.1数据仓库
如今数据库中存有大量的数据信息,必须对其进行存储、管理和维护,由于数据库管理系统的局限性使得它很难满足人们的需求。
DBMS的缺陷主要表现为:
数据量成几何级数增长;数据来源不同的数据难以集成;访问这些数据时的响应性能不断降低。
而应用决策支持系统,它所需的数据必须经过提取、转换、过滤等预处理操作并与其他数据源整合,按主题存放在数据库中。
客户查询时访问的是中央数据库,因此要想使数据能更好地为用户服务,必须经过清洗、转换和加载。
这些工作通常都在数据仓库中完成。
2.2数据仓库的特点
数据仓库主要有四个特征:
面向主题性、集成性、不可更新性、随时间变化性。
(1)数据仓库是面向主题的
以前的操作型数据库中侧重的是联机事务,各项数据的应用逻辑是相互组合的,分离度不高。
数据仓库中的数据由于是面向主题进行组织的,所以能完整地刻画各项数据以及数据之间的关系。
(2)数据仓库中的数据是集成的
数据仓库中的数据大多数都是来自不同的外部应用系统或者是本系统中不同的使用部门。
我们一般把数据仓库中的数据分为外部数据和内部数据,外部应用系统的信息就叫外部数据,本系统中的信息就叫内部数据。
这些内外数据的组织结构会有所不同,这就需要对不同的数据源数据进行集成,目的是为了保持数据的一致性。
我们所说的数据集成并不是对数据的简单归类于合并,而是要经过数据组织结构的统一与综合。
(3)数据仓库中的数据是不可更新的
数据仓库中的数据记录的是日积月累的历史数据的内容,反映的是不同时间点的数据库快照集合通过数据的统计、整合和重组而得出的数据。
数据仓库数据的不可更新性并不意味着不可以对数据进行更新操作。
当我们要进行新的分析决策时,这时候就需要对数据进行更新操作,把数据仓库中那些过时的数据删掉,并将近期的数据进行集成整合然后添加到数据库中进而生成新的记录。
这些修改和重组的任务是由数据仓库管理员定期后台实现的,最终用户不允许参与。
2.3学生成绩数据库的实施
新建一个数据库,命名为“学生成绩”,然后根据前面的数据结构设计部分所设计的11个表结构建立各表,如图4.1所示:
图2.1数据库模型
2.4学生成绩数据仓库的概念模型设计
概念模型设计阶段首先要界定系统边界和主要的研究内容。
经过了解现今许多高校在学生成绩数据库中对学生成绩仅仅是存储、查询等简单的操作,因此教师要想了解某一门课程的信息并不是一件简单的事。
教师希望从学生的考试成绩中知道用哪种教学方法或手段会对学生的学习积极性得到提高,收到比较好的教学效果。
还有学生学习这门课程会不会影响对另一门课程的学习,应该怎样安排课程的先后顺序才能让学生学的更好。
在学生成绩管理中有各种类型的的数据,先要对这些数据进行预处理,使它们符合教学决策所需的数据。
然后把学生成绩分析作为本论文研究的主题创建学生成绩数据仓库。
并从同一个班的不同门课程和同门课程在不同的专业与不同的教师教授下的效果比较进行分析研究。
2.5学生成绩数据仓库的逻辑模型设计
数据仓库的逻辑模型设计阶段包括实体关系建模和维度建模。
实体关系建模是用E-R图来表示用户需求。
E-R图是用来描述实体和实体之间的联系。
实体关系建模常常是用来为单位创建一个复杂的模型,它在创建高效的联机事务处理的系统方面很有作用。
星型结构模式由一个事实表和一组维表组成。
每一个维表都有一个维度作为主码,所有这些维度与事实表里的某一个维度相对应,成为事实表的外码。
星型模型中的事实表里的每一个属性都是维度表的外键。
在这种模型中事实表是数据仓库的中央表,它包含有联系事实表与维度表的数字度量值和键,还包含描述业务内部某一特定事件的数据。
维表是用来描述事实表中的数据,它包含创建维度所基于的数据。
星型模型如图3.1所示:
图2.1星型模型
使用星型结构有很多好处:
①这些模型能直观的反映出用户的需求信息,这样就使得数据库的设计面向主题,能满足用户的查询。
②以图的形式展现出这些信息,既直观又形象,因此很容易被用户理解。
③根据设计出来的这些模型,用户可以明确的知道对多维数据的访问路径。
本课题以学生成绩分析为主的数据仓库主要包括学生信息、任课教师信息、课程信息、院系信息、专业信息和班级信息等。
表2.1学籍异动事实表
表2.2成绩事实表
表2.3奖罚记录事实表
表2.4在校生事实表
表2.5毕业生事实表
表2.6星形表
列名
数据类型
列名说明
xnxqh
varchar(11)
学年学期号
zcj
money
总成绩
xf
money
学分
xs
money
学时
kcbm
varchar(10)
课程编码
xh
varchar(20)
学号
kcxzcode
int
课程性质编码
kcflcode
varchar
(2)
课程分类编码
khfscode
int
考核方式编码
jsbh
varchar(10)
教师编号
表2.7学生成绩事实表(XsCj)
列名
数据类型
列名说明
xh
varchar(20)
学号
xm
varchar(24)
姓名
xb
varchar
(2)
性别
bjbh
varchar(10)
班级编号
表2.8学生维表(Student)
列名
数据类型
列名说明
jsbh
varchar(10)
教师编号
jsxm
varchar(20)
教师姓名
jsxb
varchar
(2)
教师性别
zccode
varchar(10)
职称编号
表2.9教师维表(JiaoShi)
3数据预处理
表3.1学生管理成绩表
把教务处的数据抽取出来后,通过还原数据库还原到SQLServer2008中,从里面挑选出有关学生、教师、课程信息等关联的表(共计11个),把这些表导入到学生成绩数据库中。
本次研究课题必须保证所有的学生有课程平均学分绩,如该生办理了退学或者休学手续,则删除该生的所有信息。
如该教师没有担任教学任务,则删除该教师的相关信息。
例如我使用了如下SQL语句来删除无成绩的学生记录:
DeletefromCj_BjxsCJBwherezcjisnull
对数据进行筛选和连接,例如:
(1)在学生成绩(XsCj)事实表里我使用如下SQL语句:
InsertintoXsCj
Selectxnxqh,zcj,kcbm,xf,xs,kcbm,xh,kcxzcode,kcflcode,khfscode,jsbh
fromCj_XsCjwherekcbmin(selectkcbmfromCurriculum)
andxhin(selectxhfromXj_YxjJbxx)
(2)在专业(ZhuanYe)维表里我使用的SQL语句如下:
InsertintoZhuanYe
Selectzybh,zymc,yxbhfromMajor
(3)在学生(Student)维表里的SQL语句是:
UpdateStudentsetbjbh=BanJi.bjbh
fromBanJiwherezybhin(selectzybhfromBanJi,Xj_YxjJbxx
whereBanJi.bjmc=Xj_YxjJbxx.bjmc)
4数据仓库的建设与OLAP的分析;
4.1OLAP的概念
联机分析处理是从信息数据的多种可能的角度进行观察分析以得到这些角度对度量值的影响情况,我们把这些角度称之为“维”。
联机分析处理技术支持动态多维分析,所谓动态多维分析是指跨维,在不同的层次选取成员进行计算和建模,在不同的时间段进行趋势分析和预测分析;对数据进行切片和切块等多个方面对数据进行深入地分析;它还可以用于查询底层的细节数据,通过旋转对不同维进行比较。
OLAP中的变量是指从现实系统中抽取出来的用来描述数据的实际含义;人们从不同的角度来观察数据,这些角度就是维度;数据的某一个维度有可能存在更细节化的描述,我们把它称作维的层次;维成员是维度中的一个取值。
4.2OLAP的特性
(1)快速性
OLAP能快速的对数据进行分析,基本上在5秒钟之内就能分析出用户的需求信息。
之所以反应这么敏捷是因为数据存储格式、高效的硬件设计等给它的快速运行提供了可能。
(2)可分析性
OLAP系统可处理与应用有关的逻辑分析和统计分析。
用户分析数据可以直接在OLAP平台进行,也可以与其他外部分析工具连接后进行,这里的外部分析工具包括时间序列分析工具、成本分配工具、意外报警、数据开采等。
(3)多维性
进行多维分析的基础必须要多个维度,用户应在SQLServer里创建多维数据集和多维视图,然后才能进行多维分析。
在OLAP系统中,信息被描述成多维立方体(Cube),用户根据所得的立方体进行切片、上钻、下钻、旋转等操作就能得到期望的分析结果。
(4)信息性
OLAP能管理好大容量的信息,并且能够从这些庞大的数据里迅速及时的提取出用户需求的信息。
它是一个大的数据集市,因此管理和存储这么多的数据需要考虑数据的复制性、可利用的磁盘空间和数据仓库的结合度等方面。
(5)可视性
OLAP系统支持可视化的用户界面,可以把数据以多种方式显示出来,比如电子表格、图表等。
这样用户就可以直观简洁明了看到分析数据。
4.3OLAP的基本活动
(1)钻取和卷起
钻取是指对应于某一维逐步向更细节层方向观察数据;卷起与钻取相反。
这两个基本操作给用户提供了足够灵活、多角度的数据观察。
(2)切片和切块
有时只用显示出用户感兴趣的数据,这时候就需要用到切片和切块,帮助用户从众多混杂的数据中进行选择。
(3)旋转
4.4OLAP的实现方式
有时候想要改变一个报告或页面显示的维方向以从不同的视角来观察数据,这时候就需要用到旋转的方法。
按照数据的存储方式,通常把OLAP分为基于多维数据库的OLAP(MOLAP)、基于关系数据库的OLAP(ROLAP)和混合型的OLAP(HOLAP)三类。
(1)MOLAP
MOLAP是基于多维数据库的联机分析处理,这种联机分析处理的核心是多维数据库技术,它里面的数据以多维的方式来存储,使用多维数据库来组织数据。
MOALP工具以多维数据库的形式将源数据、基础事实数据和导出数据存储在以多维数组为基本存储结构的多维数据库中。
多维数据库以多维的方式存储数据和显示数据。
多维数据在多维数据库中是以“超立方体”的结构显示,再对“超立方体”进行切片、切块、旋转等操作产生多维数据报表。
多维数据库相比关系数据库而言,多维数据库占用的存储空间小而且数据的综合运算速度高。
但它也存在一些不可忽视的缺点:
一是多维数据库系统缺乏标准;二是多维数据库需要管理大规模数据,但它这方面的能力不够强大,因此它不适合用来处理大量的细节数据。
MOLAP的优点是能够非常快速地反应用户的查询需求,MOLAP独特的多维数据库结构为它的敏捷性提供了基础前提。
(2)ROLAP
ROLAP是基于关系数据库的联机分析处理。
用户从客户端提交分析请求给OLAP服务器,这些请求经过OLAP服务器被转换成SQL语句进行执行,OLAP服务器再把执行结果以多维视图的形式展现给用户。
ROLAP将多维数据库中的结构设计表分为:
一种是事实表,主要是用来存储数据和外码维关键字的;另一种是维表,每一个维度至少要使用一个表来存放层次、成员类别等信息。
维表和事实表通过主键和外键联系起来,形成星型结构或雪花型结构。
ROLAP与MOLAP相比,ROLAP更加灵活,技术成熟,而且有现成的产品可以借鉴,开发过程快,风险也小。
缺点在于处理用户的分析请求时所需的时间比较长,这是由于ROLAP要进行表连接和索引,这样就降低了系统的性能。
(3)HOLAP
HOLAP是以上两者的有机结合,被称为混合型的联机分析处理。
这在联机分析技术能够满足用户的各种请求,还附带MDDB和RDBMS供开发人员使用,在运行时把数据的查询结果存入多维数据库中。
操作型细节数据只能使用关系型数据库进行管理,而综合性的数据则使用多维数据库来管理操作。
HOLAP结合了MOALP和ROLAP的优点,可以看成是对MOLAP的一种改进,但是它的结构是相当复杂的。
5数据挖掘
5.1数据挖掘的概念
数据挖掘(DataMining,DM)是从大量的、随机的、不完全的、模糊的、有噪声的数据中,提取出隐含在数据中的、隐藏的、但又有潜在使用价值的信息和知识的过程。
因此它是一种深层次的信息分析方法。
数据挖掘出来的内容必须是需求者感兴趣的信息,因此数据挖掘过程就是使用各种挖掘技术从大型数据库中提取出人们感兴趣的信息的过程,提取出来的这些信息和知识用概念、规则、规律、模式等形式来表示。
在高校中,我们可以使用数据挖掘技术对学生的成绩进行全面地分析,找出学生成绩与其它各种因素之间隐藏的内在联系,定性的从不同的角度精确地展现学生成绩,从而找出影响学生成绩变化的可能因素,进而提出一些教学建议和改进措施,提高学生学习的积极性,让学习效果更好。
5.2数据挖掘的任务
数据挖掘的主要任务是发掘数据仓库还没有被发现的知识。
决策者明确需要了解的信息,我们可以直接使用查询、OLAP技术或其它工具来得到;而有些隐藏的信息我们就不能直接得到,因而就需要用到数据挖掘技术。
在数据仓库中应用数据挖掘技术可从中找出有价值的信息和知识,然后再利用这些信息和知识指导实际操作。
数据挖掘的任务包括关联模式、聚类模式、分类和预测、偏差检测与时序模式。
(1)关联模式。
关联模式是指数据项之间存在的关联规则,如果两个或两个以上数据项重复出现的概率比较高,它们之间就可能存在某种关系,我们把这种可能的关系称之为关联规则。
(2)聚类模式。
按照相似度把数据归并成若干类,要求同一类别中的数据相似、数据间的距离较小,不同类别中的数据相异、数据间的距离较大,我们把它称之为聚类。
(3)分类和预测。
描述和区分数据的类或概念的技术成为分类技术,分好的类或概念模型能够预测未知的对象类。
(4)偏差检测。
分类中的反常实例和不满足规则的特例不能直接用于数据分析,需要经过检查偏差,预测数据库中数据的某些异常问题,为后一步的改正做好铺垫。
(5)时序模式。
时间序列模式是根据数据的发展趋势来预测将来可能出现的值,它是根据时间序列查询出事件较高的发生概率来实现的。
5.3学生成绩的多维分析
在高校学生成绩管理中,影响学生学习成绩的因素很多,因此要进行综合分析。
传统分析无非是得到均值、方差、信度、效度和区别显著性检验等,往往还是基于教学本身。
其实,还有一些教学中不易察觉的因素和教学以外的因素影响学生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 学生 成绩 管理 中的 应用 论文