课程标准---spark大数据技术.docx
- 文档编号:30812434
- 上传时间:2024-01-30
- 格式:DOCX
- 页数:7
- 大小:33.18KB
课程标准---spark大数据技术.docx
《课程标准---spark大数据技术.docx》由会员分享,可在线阅读,更多相关《课程标准---spark大数据技术.docx(7页珍藏版)》请在冰豆网上搜索。
大数据应用专业
Spark大数据技术与应用课程标准
一、基本信息
1.课程名称:
Spark大数据技术与应用
2.课程编码:
3.适应对象:
三年制大数据应用专业
4.总学时:
64学时
5.学分:
5
6.教学条件:
一体化教室、武汉伟创聚赢科技有限公司
7.建设团队:
共有教师x人,专职讲师x人
8.审定机构:
教务处
9.审定日期:
二、课程理念
1.课程定位
本课程是为大数据技术类相关专业学生开设的课程。
Spark继承了MapReduce分布式计算的优点并改进了MapReduce明显的缺陷。
Spark拥有HadoopMapReduce所具有的优点,但不同于MapReduce,Spark的中间输出结果可以保存在内存中,从而大大减少了读写HDFS的次数,因此Spark能更好地适用于数据挖掘与机器学习中需要迭代的算法。
目前,Spark在企业中的运用越来越广泛,学习Spark分布式计算框架已然是进入大数据行业所必不可少的一步。
2.课程改革理念
大数据技术蓬勃发展,基于开源技术的Hadoop在行业中应用广泛。
但是Hadoop本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求。
Spark的诞生弥补了MapReduce的缺陷。
3.课程设计思路
本课程采用理论与实践相结合的教学方法。
在理论上,通过典型案例引入概念、原理和方法。
在实践上,由教师讲解案例背景,提供简单思路。
引导学生对案例进行针对性的分析,审理和讨论,扩展学生的思维,增加学生的兴趣。
通过学生的讨论、自主实践和练习,提高学生的判断能力,专业能力和综合素质。
要求学生自主搭建Spark集群、完成章节任务、掌握基本理论和提升专业能力。
在每章的任务教学中,可适当布置联系、组织讨论、引导提出扩展的解决方案,充分调动学生的主观能动性,锤炼学生的专业精神并提升动手能力,以达到本课程的培养目的。
三、课程目标
1.总目标
通过本课程的学习,使学生对Spark分布式计算框架有一个全面的理解,课程内容主要包括了Spark基本原理与架构、集群安装配置、Scala与Spark编程、Spark代表组件,完整项目案例等精选内容。
涉及的知识点简要精到,实践操作性强。
2.具体目标
(1)知识目标
1.了解Spark概念
2掌握如何搭建Spark分布式环境
3掌握SparkRDD的概念
4了解Spark的运行流程和原理
5掌握RDD的转化操作和行动操作方法
6掌握键值对RDD的操作
7掌握文本文件的读取和存储
(2)能力目标
1掌握如何在IDEA中配置Spark编程环境
2掌握Spark程序的编写
3掌握SparkSQL使用方法
4掌握SparkStreaming使用方法
5掌握SparkGraphX使用方法
6掌握SparkMLlib使用方法
7学习ALS算法
8掌握MLlib算法包的使用
(3)素质目标
①学生自主探究学习状态
②学生合作学习状态
③学生的自我感受(共鸣度、愉悦度、价值度)
④与人合作的积极性
四、课程教学内容
本课程由8个教学项目组成,课程具体教学内容见表1。
表1课程教学内容一览表
序号
项目/模块/任务
教学内容/任务
教学/学习目标
教学活动设计
教学资源
学习地点
学时
1
Spark基础知识
Spark概述
Spark基本概念
Spark发展和应用
Spark环境配置方法
Spark架构及原理
了解Spark概念
掌握如何搭建Spark分布式环境
掌握SparkRDD的概念
了解Spark的运行流程和原理
课件、教案、素材、教学环境、实践项目
实训机房
4
2
Spark编程
从内存中已有数据创建RDD
从外部存储创建RDD
RDD转化操作和行动操作方法
RDD键值对操作
文件读取与存储
掌握RDD的转化操作和行动操作方法
掌握键值对RDD的操作
掌握文本文件的读取和存储
课件、教案、素材、教学环境、实践项目
实训机房
8
3
Spark编程进阶
下载与安装IntelliJIDEA
Scala插件安装与使用
配置Spark运行环境的方法
运行Spark程序的方法
持久化方法
数据分区方法
掌握如何在IDEA中配置Spark编程环境
掌握Spark程序的编写
课件、教案、素材、教学环境、实践项目
实训机房
10
4
SparkSQL:
结构化数据文件处理
SparkSQL简介
SparkSQLCLI配置
SparkSQL与Shell交互
DataFrame基础操作方法
掌握SparkSQL使用方法
课件、教案、素材、教学环境、实践项目
实训机房
8
5
SparkStreaming:
实时计算框架
SparkStreaming运行原理
SparkStreaming使用方法
DStream编程模型基本方法
掌握SparkStreaming使用方法
课件、教案、素材、教学环境、实践项目
实训机房
8
6
Python爬虫高阶框架知识
SparkGraphX:
图计算框架
图的基本概念
图计算的应用
GraphX的基础概念
图的创建与存储
数据查询与数据转换
结构转换与关联聚合
掌握SparkGraphX使用方法
课件、教案、素材、教学环境、实践项目
实训机房
8
7
SparkMLlib:
功能强大的算法库
机器学习
MLlib介绍和应用
掌握SparkMLlib使用方法
课件、教案、素材、教学环境、实践项目
实训机房
8
项目案例:
餐饮平台菜品智能推荐
常用推荐算法
异常数据处理方法
数据变换方法
学习ALS算法
掌握MLlib算法包的使用
课件、教案、素材、教学环境、实践项目
实训机房
12
学时合计
64
五、考核办法
突出学生解决实际问题的能力,加强过程性考核。
突出学生解决实际问题的能力,加强过程性考核。
课程考核的成绩构成=出勤(10%)+平时作业与课堂练习(30%)+课程设计(60%),题型可采用判断题、选择、简答、应用题等方式。
表2课程考试考核内容与形式一览表
序号
项目/模块/任务
单元教学内容
理论考试
技能考核
备注
权重
内容
考试形式
权重
内容
考核方式
1
Spark基础知识
Spark概述
5%
搭建Spark分布式环境
线上学习平台考核
5%
掌握SparkRDD的概念、了解Spark的运行流程和原理
作业提交或考试
2
Spark编程
5%
掌握RDD的转化操作和行动操作方法
线上学习平台考核
5%
掌握键值对RDD的操作
掌握文本文件的读取和存储
作业提交或考试
3
Spark编程进阶
8%
掌握如何在IDEA中配置Spark编程环境
线上学习平台考核
8%
掌握Spark程序的编写
作业提交或考试
4
Spark计算框架
SparkSQL:
结构化数据文件处理
8%
掌握SparkSQL使用方法
线上学习平台考核
8%
掌握SparkSQL使用方法
作业提交或考试
5
SparkStreaming:
实时计算框架
8%
掌握SparkStreaming使用方法
线上学习平台考核
8%
掌握SparkStreaming使用方法
作业提交或考试
6
SparkGraphX:
图计算框架
5%
SparkGraphX使用方法
线上学习平台考核
5%
SparkGraphX使用方法
作业提交或考试
7
SparkMLlib:
功能强大的算法库
5%
SparkMLlib使用方法
线上学习平台考核
5%
SparkMLlib使用方法
作业提交或考试
8
项目案例:
餐饮平台菜品智能推荐
6%
学习ALS算法
笔试或线上考试
6%
掌握MLlib算法包的使用
作业提交或考试
六、学分计算
本课程为专业必修课,根据《武汉警官职业学院学分制管理办法》,共计5学分。
学生必须参加32学时的理论学习和32学时的实验(实训、实习、设计等)教学活动,并经考核合格才能取得相应学时学分,学分绩点根据课程综合评定成绩计算。
课程期末总评成绩45~59.9分(按百分制折算)的学生,允许参加正常补考一次,补考内容包括理论考试和技能考核,各占50%,总评合格者给予相应学时学分
七、教学建议
(一)教学方法
本课程采用理论与实践相结合的教学方法。
在理论上,通过典型案例引入概念、原理和方法。
在实践上,由教师讲解案例背景,提供简单思路。
引导学生对案例进行针对性的分析,审理和讨论,扩展学生的思维,增加学生的兴趣。
通过学生的讨论、自主实践和练习,提高学生的判断能力,专业能力和综合素质。
要求学生自主搭建Spark集群、完成章节任务、掌握基本理论和提升专业能力。
在每章的任务教学中,可适当布置联系、组织讨论、引导提出扩展的解决方案,充分调动学生的主观能动性,锤炼学生的专业精神并提升动手能力,以达到本课程的培养目的。
(二)教学条件
1.教室
机房安装所有大数据VM,Spark,hadoop,scala专业应用的相关软件,比如常用软件虚拟机,等软件。
2.校内实训基地
表3XX课程实验室主要仪器设备
实训室
名称
设备名称
规格
数量
大数据实训室
教师机
I5处理器,8G内存,4G独立显卡
1
学生机
I5处理器,8G内存,4G独立显卡
50
投影仪
EPSONCB-X04
1
投影幕布
120寸红叶电动幕布
1
投影机吊箱
定制
1
音响系统
万利达Y5
1
路由器
H3CER3100
1
机柜
标准600*600*1200
1
交换机
H3CS1024R24口百兆
3
理线器
16空位
3
服务器
晨光溢海
1
八、资源开发与利用
(一)教材编写与使用情况
教材
肖芳,张良均.Spark大数据技术与应用[M].北京:
人民邮电出版社.2018.
参考资料
[1]张良均,樊哲,位文超,刘名军.Hadoop与大数据挖掘[M].北京:
机械工业出版社.2015.
(二)数字化教学资源开发与利用情况
1、充分利用多媒体现代化教学手段进行教学,制作多媒体教学资料,以多种教学方式,使枯燥的内容形象化、生动化、从而提高教学质量和单位时间的教学容量。
2、建立整体教学网络平台,包括学生管理,讲师管理,课程资料,教学内容,课件等,素材库,实现师生互动与交流。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 课程标准 spark 数据 技术
![提示](https://static.bdocx.com/images/bang_tan.gif)