第一章:数据挖掘和数据仓库概述.ppt
- 文档编号:2642895
- 上传时间:2022-11-04
- 格式:PPT
- 页数:72
- 大小:1.45MB
第一章:数据挖掘和数据仓库概述.ppt
《第一章:数据挖掘和数据仓库概述.ppt》由会员分享,可在线阅读,更多相关《第一章:数据挖掘和数据仓库概述.ppt(72页珍藏版)》请在冰豆网上搜索。
第一章第一章数据仓库与数数据仓库与数据挖掘概述据挖掘概述李晋宏北方工业大学信息工程学院北方工业大学信息工程学院北方工业大学信息工程学院北方工业大学信息工程学院内容内容数据挖掘引论数据仓库引论数据挖掘的应用常用数据挖掘工具北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来机器学习知识工程机器学习北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来机器学习将一些已知的并以被成功解决的问题作为范例输入计算机,机器通过学习这些范例,总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类问题最早始于20世纪60年代如Rosenblate的感知机,Sammel的西洋跳棋程序北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来知识工程直接为计算机输入已被代码化的规则,计算机通过使用这些规则来解决某些问题如专家系统北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来机器学习80年代神经网络理论的发展(BP算法)成果应用于处理大型商业数据库Quiulan的ID3(1983年)决策树方法Rumelhart反向传播神经网络BP模型(1985年)北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来1989年,在美国底特律召开的第十一届国际联合人工智能学术会议上首次提到知识发现(knowledgediscoveryindatabase,KDD)1995年,在加拿大蒙特利尔召开了首届KDD国际学术年会,数据挖掘技术被分为工程领域的数据挖掘和科研领域的知识发现北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程从数据中挖掘知识知识发现数据分析数据融合决策支持等相似术语北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘的原始数据结构化的,如关系数据库中的数据半结构化的,如文本,图形,图像数据等数据挖掘的方法数据的非数据的演绎的归纳的北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义挖掘出的知识用于信息管理查询优化决策支持过程控制等北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤确定业务对象:
理解数据和实际的业务,提出问题,对目标有明确的定义数据准备:
占工作量的60%数据选择:
所有与业务对象有关的内部、外部数据信息数据预处理:
整理,清洗不完全的数据数据转换:
数据格式化,编码转换等北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤数据挖掘:
选择合适的挖掘算法,自动完成结果分析与知识同化结果分析:
可视化技术,对挖掘结果进行解释并评估知识同化:
将分析所得到的知识集成到业务信息系统的组织结构中去北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤JiaweiHanDataCleaningDataIntegrationDataWarehouseTask-relevantDataSelectionDataMiningPatternEvaluation数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(JiaweiHan)数据清理(DataCleaning):
消除噪声或不一致数据;数据集成(DataIntegration):
多种数据源组合在一起;数据选择(DataSelection):
从数据库中检索与分析任务相关的数据;数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(JiaweiHan)数据变换(DataTransformation):
数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘(DataMining):
使用智能方法提取数据模式;模式评估(DataEvaluation):
根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示(Knowledgepresentation):
使用可视化和知识表示技术,向用户提供挖掘的知识;北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(CRISP-DM过程模型)各个阶段会以一种非线性的方式互相影响迭代特性(从一个数据挖掘循环获得的知识几乎无所例外地会导致新的问题、新的争论以及新的机会来识别和满足客户的需求。
这些新问题新争论和新机会通常可以通过再次挖掘您的数据得以解决。
北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(CRISP-DM过程模型)商业理解:
商业理解包括确定业务对象、评估情况、确定数据挖掘目标以及制订工程计划。
数据理解:
包括收集初始数据、描述数据、探索数据和验证数据质量。
数据准备:
包括选择、清理、构建、集成以及格式化数据。
北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(CRISP-DM过程模型)建模:
使用精巧复杂的分析方法从数据中提取信息。
包括选择建模技术、生成测试设计,以及构建和评估模型。
评估:
包括评估结果、查看数据挖掘过程,以及确定后续步骤。
部署:
将新知识结合到日常的业务流程中,来解决最初的业务问题。
此阶段包括计划部署、监视和维护、生成最终报告,以及复查该工程。
北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能概念描述对某类对象的内涵进行描述概括这类对象的有关特征允许在多个抽象层概化泛化概化粗粒度、细粒度多维特征性描述:
描述某类对象的共同特征区别性描述:
描述不同类对象之间的区别1-9数字北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能关联分析若两个或多个变量间存在着某种规律性,称为关联分简单关联、时序关联、因果关联从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式啤酒与尿布北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能分类与预测分类:
提出一个分类函数或者分类模型,该模型能把数据库中的数据项映射到给定的类别中的一个。
需要有一个训练样本数据集作为输入预测:
利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性或值的范围决策树北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能分类与预测分类是预测分类标号(或离散值),如决策树、K-最临近分类法预测建立连续值函数模型(连续值或有序值),如线性回归和多元回归,非线性回归;北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能聚类分析根据数据的不同特征,将其划分成为不同的数据类使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大分类需要预先定义类别和训练样本聚类直接面向数据源,没有预先定义好的类别和训练样本,所有记录都根据彼此相似程度加以归类北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能偏差分析又称比较分析对差异和极端特例的描述揭示事物偏离常规的异常现象包括分类中的反常实例、不满足规则的特例、观测结果对模型预测的偏差、量值随时间的变化等计算机与退学北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法聚类分析源于统计学、生物学以及机器学习等使同一个簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高的相异性有以下几种分析方法基于划分的方法层次的密度的网格的模型的北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法决策树主要用于分类和预测分为分类树和回归树分类树:
对离散变量做决策回归树:
对连续变量做决策每一次切分都要求分成的组之间的“差异”最大常用算法CHAIDCARTQuestID3C4.5北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法决策树属性属性OutlookTemperatureHumidityWindy类类1OvercastHotHighNotN2SunnyMildNormalVeryP8RainHotHighMediumP24RainMildHighVeryN2424条记录条记录33个属性值个属性值33个属性值个属性值22个属性值个属性值33个属性值个属性值22个类个类北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法决策树树的根节点整个数据集合空间内部节点每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出叶节点每个叶节点代表类或类分布熵北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法人工神经网络模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型利用大量的简单计算单元(神经元)连成网络,实现大规模并行计算通过学习,来改变神经元之间的连接强度包括前馈式网络反馈式网络自组织网络北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法人工神经网络北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法人工神经网络北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法粗糙集一种处理不确定、不完备数据和不精确问题的新的数学理论仅利用数据本身提供的信息,无须任何先验知识将知识理解为对数据的划分,并引入上近似和下近似等概念来刻画知识的不确定性和模糊性北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法关联规则挖掘由美国学者Agrawal等人于1993年提出最初是针对购物篮分析问题提出从数学及计算机算法角度提出了商品关联关系的计算方法Aprior算法找到所有支持度大于最小支持度的频繁项集,由频繁项集产生期望的规则北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法关联规则挖掘基于频集理论的递推方法有关联发现、序列模式发现、时序发现等沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的哈佛商业评论北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法统计分析从事物的外在数量上的表现去推断该事物可能的规律从其数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,再做进一步深入的理论研究有回归分析(多元回归、自回归)、判别分析(贝叶斯判别、费歇尔判别、非参数判别)和探索性分析(主元分析、相关分析)等北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论电解铝生产智能系统模糊专家系统多维分析系统数据挖掘系统六西格玛系统规则规则统计统计猜想猜想多维多维猜想猜想新的观新的观测视角测视角北方工业大学信息工程学院北方工业大学信息工程学院数据仓库引论数据仓库引论数据仓库的产生与发展1988年,为解决全企业集成问题,IBM爱尔兰公司的BarryDevlin和PaulMurphy第一次提出了“信息仓库”的概念1992年,美国WilliamH.Inmon在建立数据仓库一书中系统阐述了关于数据仓库的思想和理论,被称为“数据仓库之父”北方工业大学信息工程学院北方工业大学信息工程学院数据仓库引论数据仓库引论数据仓库的产生与发展199
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一章 数据 挖掘 数据仓库 概述