1 数据挖掘每章知识范文Word文档下载推荐.docx
- 文档编号:15344957
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:20
- 大小:510.39KB
1 数据挖掘每章知识范文Word文档下载推荐.docx
《1 数据挖掘每章知识范文Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《1 数据挖掘每章知识范文Word文档下载推荐.docx(20页珍藏版)》请在冰豆网上搜索。
若两个或多个变量间存在着某种规律性,就称为关联。
关联分析的目的就是找出数据中隐藏的关联网。
⑶分类与预测①分类②预测
⑷聚类分析:
客观的按被处理对象的特征分类,将有相同特征的对象归为一类。
⑸趋势分析:
趋势分析——时间序列分析,从相当长的时间的发展中发现规律和趋势。
⑹孤立点分析:
孤立点:
数据库中包含的一些与数据的一般行为或模型不一致的数据。
⑺偏差分析:
偏差分析——比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象。
6.
数据挖掘常用技术:
⑴数据挖掘算法是数据挖掘技术的一部分
⑵数据挖掘技术用于执行数据挖掘功能。
⑶一个特定的数据挖掘功能只适用于给定的领域。
按照上述思想,数据挖掘技术主要包含以下几种:
⑴聚类检测方法⑵决策树方法⑶人工神经网络方法。
人工神经网络方法:
前馈式网络、反馈式网络和自组织网络。
7.
遗传算法基本算子:
繁殖、交叉和变异。
8.数据挖掘应用领域:
⑴金融业⑵保险业⑶零售业⑷科学研究⑸其他领域
9.
数据挖掘研究方向:
(1)专门用于知识发现的形式化和标准化的数据挖掘语言;
(2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法;
(3)网络环境下的数据挖掘技术;
(4)加强对各种非结构化数据的挖掘。
10.
数据挖掘应用的热点:
(1)网站的数据挖掘
(2)生物信息或基因的数据挖掘(3)文本的数据挖掘
11.
数据挖掘技术是一门综合性的技术领域,主要涉及数据库、人工智能和数理统计3个技术领域。
12.
数据挖掘产生的前提是:
从大量数据中找出隐藏在其中的、有用的信息和规律;
计算机技术和信息技术的发展使其有能力处理这样大量的数据。
第二章
1.主题:
是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
从信息管理的角度——在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。
从数据组织的角度——一些数据集合,对分析对象进行了比较完整的、一致的数据描述,这种描述不仅涉及数据自身,还涉及数据之间的关系。
2.数据仓库数据的4个基本特征:
⑴数据仓库的数据是面向主题的;
⑵数据仓库的数据是集成的;
⑶数据仓库的数据是不可更新的;
⑷数据仓库的数据是随时间不断变化的。
3.元数据“关于数据的数据”,如传统数据库中的数据字典就是一种元数据。
元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。
4.元数据在数据仓库中的作用
⑴为决策支持系统分析员和高层决策人员服务提供便利
⑵解决面向应用的操作型环境和数据仓库的复杂关系
5.元数据的分类
⑴按元数据的类型:
关于基本数据、用于数据处理和关于企业组织结构的元数据。
⑵按抽象级别:
概念级、逻辑级和物理级的元数据。
⑶按元数据承担的任务:
静态和动态
⑷从用户的角度:
技术元数据和业务元数据。
6.元数据的内容
⑴数据源的元数据
⑵数据模型的元数据
⑶数据准备区元数据
⑷数据库管理系统元数据
⑸前台元数据
7.粒度的概念
粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。
分为两种形式:
⑴按时间段综合数据的粒度
⑵样本数据库
(根据采样率的高低来划分
8.粒度划分
⑴先估算数据仓库中的总的行数,然后进行粒度的划分。
⑵粒度划分的决定性因素并非总的数据量,而是总的行数。
⑶因为对数据的存取通常是通过存取索引来实现的,而索引是对应表的行来组织的,即在某一索引中每一行总有一个索引项,索引的大小只与表的总行数有关,而与表的数据量无关。
9.分割
⑴概念
分割是指把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储的方法。
⑵优势
使用数据分割能够便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率。
使用数据分割同时也可有效地支持数据概括。
⑶标准
可以按照时间、业务类型、地理分布等对数据进行分割。
在许多情况下,数据分割采用的标准不是单一的,往往是多个标准的组合。
例如,按照季节和业务类型进行数据分割,将同一时间和同一业务的数据合并在一起。
⑷考虑的因素
①数据量②数据分析处理的对象③粒度分割的策略
⑸数据量的估算(一种估算数据仓库所占空间的方法)
①估算数据仓库中需要建立的表数目。
②对每一个已知的表,计算1行所占字节数的最大估计值和最小估计值。
③统计在1年内可能出现的数据行的最大行数和最小行数。
④统计在5年内可能出现的数据行的最大行数和最小行数。
⑤计算每个表所占的存储空间大小,公式如下:
1年总的最大空间=一行最大值×
1年内最大行数+索引空间
1年总的最小空间=一行最小值×
1年内最小行数+索引空间
⑥分别计算数据仓库中所有表的1年内可能出现的最大行数和最小行数及它们所占用的最大存储空间和最小存储空间和5年内可能出现的最大行数和最小行数及它们所占用的最大存储空间和最小存储空间。
10.数据仓库系统设计与数据库系统设计的不同
⑴面向的处理类型不同
⑵面向的需求不同
⑶系统设计的目标不同
⑷两者的数据来源或系统的输入不同
⑸系统设计的方法和步骤不同
11.数据仓库的清理
⑴数据加入到失去原有细节的一个轮转综合结构数据组织形式的文件中;
⑵数据从高性能的介质转移到大容量介质上(如从硬盘转移到光盘);
⑶数据从数据仓库系统中真正清除;
⑷数据从体系结构的一个层次转移到另一个层次等。
12.数据仓库系统设计与数据库系统设计的不同
13.数据集市通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。
也称为部门级数据仓库。
数据集市有两种:
从属的数据集市和独立的数据集市
第三章
数据预处理
1.原始数据存在的几个问题:
不一致;
重复;
含噪声;
维度高。
2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。
3.数据挖掘中使用的数据的原则
应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:
尽可能赋予属性名和属性值明确的含义;
统一多数据源的属性值编码;
去除惟一属性;
去除重复性;
去除可忽略字段;
合理选择关联字段。
4.处理空缺值的方法:
忽略该记录;
去掉属性;
手工填写空缺值;
使用默认值;
使用属性平均值;
使用同类样本平均值;
预测最可能的值。
5.噪声数据的处理方法:
分箱;
聚类;
计算机和人工检查结合;
回归
6.分箱:
分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。
所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。
把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
在采用分箱技术时,需要确定的两个主要问题就是:
如何分箱以及如何对每个箱子中的数据进行平滑处理。
分箱的方法:
有4种:
等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
统一权重,也成等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。
这是最简单的一种分箱方法。
统一区间,也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
用户自定义区间,用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
例:
客户收入属性income排序后的值(人民币元):
800
1000
1200
1500
1800
2000
2300
2500
2800
3000
3500
4000
4500
4800
5000,分箱的结果如下。
统一权重:
设定权重(箱子深度)为4,分箱后:
统一区间:
设定区间范围(箱子宽度)为1000元人民币,分箱后
用户自定义:
如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后
7.数据平滑方法:
按平均值平滑、按边界值平滑和按中值平滑。
⑴按平均值平滑
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
⑵按边界值平滑
用距离较小的边界值替代箱中每一数据。
⑶按中值平滑
取箱子的中值,用来替代箱子中的所有数据。
8.聚类:
将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
9.9.回归;
试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
10.数据集成:
将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。
考虑以下几个问题:
1.模式匹配2.数据冗余3.数据值冲突
数据变换:
1.平滑2.聚集3.数据概化4.规范化
(1)最小-最大规范化
(2)零-均值规范化(3)小数定标规范化
5.属性构造
12.数据集成:
13.数据归约:
目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。
数据归约的方法:
1.数据立方体聚集:
把聚集的方法用于数据立方体。
2.维归约:
检测并删除不相关、弱相关或冗余属性。
3.数据压缩:
选择正确的编码压缩数据集。
4.数值压缩:
用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。
5.离散化和概念分层生成:
使连续的数据离散化,用确定的有限个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘每章知识范文 数据 挖掘 每章 知识 范文