最新数据挖掘技术教学大纲文档格式.docx
- 文档编号:21054522
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:10
- 大小:21.16KB
最新数据挖掘技术教学大纲文档格式.docx
《最新数据挖掘技术教学大纲文档格式.docx》由会员分享,可在线阅读,更多相关《最新数据挖掘技术教学大纲文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
本课程主要讲授数据挖掘的基本概念,原理、方法和技术,具体包括:
数据的预处理、分类预测、关联挖掘,聚类分析等内容。
通过学习,使学生理解数据挖掘的基本流程,掌握数据挖掘的基本理论和技术,熟悉数据挖掘成果的表达;
掌握数据挖掘的基本方法,能熟练地应用数据挖掘技术对现实数据进行有效的分析,能够结合Clementine软件从大量统计数据中获取有价值的信息。
二、课程教育目标
(一)总体目标
数据挖掘是高级数据处理和分析技术。
通过本课程学习,使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine实现数据分析和挖掘,并使学生具有进一步学习的基本与能力。
(二)具体目标
1.能够导入、输出各种类型的数据,并对数据进行简单描述统计
2.能够编写建立线性回归模型、非纯性回归模型、编写回归模型的程序,并能够通过程序检验模型
3.能够对数据进行聚类分析、分类分析、关联分析、能够对文本数据进行数据挖掘
三、课程学时分配
课程章节
课程内容
理论学时
实践学时
第一章
数据挖掘和Clementine
2
第二章
Clementine数据管理
第三章
Clementine数据的基本分析
6
第四章
关联规则挖掘
第五章
分类与预测
4
第六章
聚类分析
合计
16
24
四、课程内容
第一章数据挖掘和Clementine使用概述
【教学内容】
1.1数据挖掘的产生背景
1.数据挖掘产生的背景
2.数据挖掘的发展
3.数据挖掘概述
1.2什么是数据挖掘
1.数据挖掘概念
2.数据挖掘分类
3.数据挖掘体系结构
1.3Clementine软件概述
1.Clementine的配置
2.Clementine操作基础
【学习目标】
本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识。
因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉Clementine软件的使用环境。
要求学生掌握以下内容:
1.数据挖掘的发展
2.数据挖掘基本知识
3.数据挖掘功能
4.数据挖掘应用
5.数据挖掘的热点问题
6.熟悉Clementine软件
【重点、难点】
1.重点:
(1)数据挖掘概念
(2)数据挖掘分类
2.难点:
Clementine操作基础
【教学方法】
1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;
2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第二章Clementine数据管理
2.1数据源节点(Sources)
1.从开放数据库中导入数据
2.从文本文件中读取数据
3.导入Excel格式的数据
4.用户手动创建数据
2.2记录选项节点(RecordOps)
1.选择节点
2.对数据的抽样
3.修正数据集中的不均匀性
4.统计汇总
5.对节点数据的排序
6.区分节点来清除重复记录
2.3字段选项节点
1.变量说明
2.变量值的重新计算
3.变量类别值的调整
4.生成新变量
5.变量值的离散化处理
6.生成样本集分割变量
本章中的数据管理主要是指数据挖掘中的数据预处理部分。
对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。
数据预处理一般包括:
数据清理,数据集成,数据变换,数据归约等方法。
要求学生掌握本章讲授的所有数据管理技术。
(1)数据源节点
(2)记录选项节点
(3)字段选项节点
无
第三章Clementine数据的基本描述分析
3.1数据质量探索
1.数据的基本描述与质量探索
2.离群点和极端值的修正
3.缺失值的替补
4.数据质量管理的其他功能
3.2数据基本描述分析
1.计算基本描述统计量
2.绘制散点图
3.3两分类变量相关性的研究
1.两分类变量相关性的图形分析
2.两分类变量相关性的数值分析
3.4两总体的均值比较
3.5变量重要性分析
基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。
描述集中趋势的描述性统计量一般有均值、中位数和众数;
描述离散程度的描述性统计量一般有方差、标准差和极差。
要求学生掌握Clementine数据的基本分析方法。
(1)数据质量探索
(2)数据基本描述分析
两分类变量相关性的研究
第四章关联规则挖掘
4.1关联规则概述
1.基本概念
2.关联规则表示
3.关联规则挖掘算法简介
4.2Apriori算法
1.Apriori算法生成频繁项集的过程
2.Apriori算法从频繁项集产生关联规则
4.3在Clementine中应用Apriori算法
4.4序列模式挖掘
1.序列与序列模式
2.Apriori算法
3.在Clementine中应用序列模式挖掘
关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导和后继。
其中,关联规则X→Y,存在支持度和信任度。
本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。
由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支,因此本章重点在于一些经典理论和算法、热点问题的介绍。
1.关联规则相关概念
2.Apriori算法
3.在Clementine中应用Apriori算法
2.重点:
(1)关联规则相关概念
(2)Apriori算法
2.难点:
序列模式挖掘
第五章分类与预测
5.1分类与决策树概述
1.分类和预测数据分析形式介绍
2.决策树概述
5.2ID3、C4.5与C5.0算法及应用
1.信息熵计算
2.决策树归纳策略
3.ID3算法及缺点
4.C4.5算法
5.C5.0算法及优点
6.在Clementine中应用C5.0
5.3二项Logistic回归分析
5.4二项Logistic回归分析应用
分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
预测可以涉及数据值预测和类标记预测,但预测通常指值预测。
两者的区别是,分类是用来预测数据对象的类标记,而预测则是估计某些空缺或未知值。
分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述。
分类和预测数据分析形式
1.ID3算法
2.C4.5算法
3.Logistic回归分析
1.重点:
(1)决策树概述
(2)ID3算法
(3)C4.5算法
Logistic回归分析
第六章聚类分析
6.1聚类分析的一般问题
1.聚类分析介绍
2.聚类分析应用领域
3.聚类分析原理
4.主要聚类方法分类
6.2Clementine的k-means聚类及应用
1.k-means算法
2.k-means算法的优缺点
3.在Clementine中应用k-means
6.3Clementine的两步聚类及应用
1.两步聚类算法
2.Clementine的两步聚类应用
聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
聚类是数据挖掘技术中一个重要组成部分,内容很多,因此要求学生掌握聚类分析原理、基本方法和主要算法。
2.重点:
(1)聚类分析原理
(2)主要聚类方法分类
五、考核方式及成绩评定
1.考核方式:
课程考核方式分为过程考核(平时考核)和课终考核(期末考核)。
过程考核(平时考核)方式包括课堂表现、平时作业、阶段性测试、调研报告等;
课终考核(期末考核)采用考查。
2.总成绩评定:
总成绩=过程成绩(平时成绩)*50%+课终成绩(期末成绩)*50%(其中过程成绩的占比由课程组根据课程实际提出并报二级学院决定)
3.过程成绩(平时成绩)评定:
(1)课堂表现(5%):
学生主动参与课堂练习、讨论,创造性地提出问题的能力;
(2)作业完成情况(10%):
学生平时作业提交次数及完成质量;
(3)阶段性测验(10%):
学生在平时测试、测验中掌握课程的情况;
(4)研究报告(10%):
学生收集资料能力,研究设计能力,解决实际问题能力和合作研究能力;
(5)实践教学(10%);
(6)考勤(5%)。
4.期末考试:
期末考试主要考察对基本概念、操作程序和具体方法的理解与运用等。
六、建议教材和主要参考书目
(一)建议教材
《基于Clementine的数据挖掘》,薛薇陈欢歌主编,中国人民大学出版社,2012-3第一版
(二)参考书目
1.《数据挖掘:
概念与技术》,(美)韩家炜(Han,J.)等著,范明等译。
机械工业出版社,2012年第8月
七、其它说明
(一)课程实践环节及基本要求
见《数据挖掘技术》实验教学大纲
(二)课程资源
通过互联网查阅相关学习资料
(三)其他
1.制定依据:
依据2019年物联网工程专业人才培养方案制定。
2.执行对象:
从2019级学生开始执行。
执笔人(签字):
参与人(签字):
二级学院审核(签字):
学校审批(签字):
年月日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 数据 挖掘 技术 教学大纲