换一换

冰豆网 > 资源分类 > DOCX文档下载

预览

数据仓库与数据挖掘期末复习.docx

资源ID：11929469 资源大小：26.99KB 全文页数：17页
资源格式： DOCX 下载积分：10金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

数据仓库与数据挖掘期末复习.docx

1、数据仓库与数据挖掘期末复习1.数据仓库的概念和特点p11定义：一个面向主题的、集成的、非易失的且随时间变化的数据集合，用来支持管理人员作出决策。特性：面向主题的、集成的、非易失的、随时间不断变化的。1、面向主题的：数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体，是从整体的、全局的角度来衡量这些主题在企业中的作用。2、集成的（最重要）：数据仓库必须将不一致的数据进行有效的集成，使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一部分工作，另外还需要根据主题进行有效的数据组织。3、非易失性：一旦操作型数据进入数据仓库，只要数据未超过数据仓库的数据存储期限，通常不对数据进行更

2、新操作，而只进行查询操作。即不进行一般意义上的更新，而且与操作型数据相比，更新频率要低得多，对时间的要求更为宽松。4、随时间不断变化的（数据因时而变的特点）与操作型数据比较的，书上14页：（1）数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般60-90天，数据仓库5-10年。操作型环境中的数据库含有数据的“当前值”，其准确性访问是有效的，其当前值能被更新，数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。操作型环境中的数据键码结构可能含有也可能不含有；数据仓库的键码结构总是包含某时间元素。2.数据仓库中的关键概念14外部数据源：就是从系统外部获取的同分析

3、主题相关的数据。数据抽取：是数据仓库按分析的主题从业务数据库抽取相关数据的过程。数据清洗：所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除，以免影响DSS决策的正确性。数据转换：各种数据库产品所提供的数据类型可能不同，需要将不同格式的数据转换成统一的数据格式，称为数据转换。数据加载：是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价，对不同业务的数据采用不同的加载周期，但必须保持同一时刻业务数据的完整性和一致性。元数据：元数据是关于数据的数据。元数据位于数据仓库的上层，而且能够记录数据仓库中对

4、象的位置。数据集市：面向企业中的某个部门（主题）而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。数据粒度：粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。细化程度越高，粒度级别就越低。相反，细化程度越低，粒度级别就越高。数据仓库的数据组织结构：早期细节级（通常用于备用的、批量化的存储）、当前细节级、轻度综合数据级（数据集市）以及高度综合数据级。一旦数据过期，就由当前细节级进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级，然后由轻度综合数据级进入高度综合数据级。数据粒度的两种形式：第一种形式的粒度是对数据仓库中的数据的综合程度高低的一种度量，另一种形式即样

5、本数据库，是针对数据挖掘的，样本数据库是以一定的采样率（或按数据的重要程度的不同）从细节档案数据或轻度综合数据中抽取的一个子集。数据分割：分割是指将数据分割到各自的物理单元中以便能分别进行处理，提高数据处理效率，数据分割后形成的数据单元称为分片。数据库数据仓库面向应用数据是详细保持当前数据数据是可更新对数据的操作是重复的操作需求是事先可知的一个操作只存取一条记录数据非冗余操作较频繁所查询的是原始数据事务处理需要当前数据鲜有复杂的计算支持事务处理面向主题数据是综合的或提炼的保存过去的和现在的数据数据是不可更新对数据的操作是启发式的操作需求是临时决定的一个操作存取一个数据集合数据常冗余操作相对不频

6、繁所查询的是经过加工的数据决策分析需要过去的和现在的数据需做复杂的计算支持决策分析操作型数据分析型数据细节的综合的或提炼的在存取瞬间，数据是准确的可更新的事先可知操作需求生命周期符合SDLC（软件开发生命周期）对性能的要求较高某一时刻操作一个单元事务驱动面向应用一次操作的数据量较小支持日常操作历史数据不可更新操作需求事先不可知完全不同的生命周期对性能的要求较为宽松某一时刻操作一个集合分析驱动面向分析一次操作的数据量较大支持管理需求4.数据仓库的数据追加与方法数据追加：数据仓库中的数据初装完成后，再向数据仓库输入数据的过程。数据仓库的内容仅限于上一次向数据仓库输入数据后在OLTP数据库中发生变化

7、的数据。捕捉变化数据的常用途径如下：（1）时标方法：如果数据含有时标，对于插入或更新的数据记录，在记录中设置相应的时标，那么只需根据时标判断哪些数据是上次追加后变化的即可。但并非所有数据库中的数据都含有时标。（2）DELTA文件1.DELTA文件是由应用生成的，记录应用所改变的所有内容。2.利用DELTA文件效率很高，它避免扫描整个数据库。但因应用系统常由不同的软件开发商开发，生成DELTA文件的应用并不普遍，还有更改应用代码的方法，可在生成新数据时将其自动记录下来，但应用数目庞大，修改的代码十分繁琐。（3）前后映像文件的方法：1.在抽取数据前后对数据库各做一次快照，然后比较两幅快照从而确定

8、新数据。2.它占用大量资源，对性能影响极大，因此无实际意义。（4）日志文件（最切实有效）日志是DMBS的固有机制系统日志能把数据库服务器所执行的所有操作详细记录下来，通过分析日志获取数据变化情况。它还具有DELTA文件的优越性质，提取数据只要局限日志文件即可，不用扫描整个数据库。固有机制，不影响OLTP性能。5.数据仓库的数据清理1.数据加入失去原有细节的一个定期综合文件2.数据从高性能介质转移到大容量介质上3.数据从系统中实质性的清除4.数据从体系结构的某一个层次转至另一个层次，必须从操作型层次转至数据仓库层次6.数据集市的类型概念，在企业中很重要的作用数据集市(Data Mart) ，也叫

9、数据市场，是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。数据仓库在整个组织范围内为各个部门提供管理与决策支持，而数据集市通常处于部门级，只能为某个局部范围内的管理人员提供服务，因此也称为部门级数据仓库。因此可以说数据集市是针对特定应用的数据仓库，即针对某个具有战略意义的应用或部门级应用，支持用户利用已有的数据做出管理决策。数据集市（Data Marts）是一种更小、更集中的数据仓库，为公司提供分析商业数据的一条廉价途径。1.独立型数据集市（独立数据集市）其数据直接来自各个生产系统，许多企业考虑投资问题，最终建成独立数据集市，用来解决个别部门较为迫切的决策问题。

10、从这种意义上讲，它和企业数据仓库除了在数据量和服务对象上存在差别外，逻辑结构并无多大区别，也许就是把数据集市成为部门级数据仓库的主要原因。2.从属性数据集市（从属集市）：数据直接来自中央数据仓库访问数据仓库频繁的关键业务部门建立从属数据集市，可以提供查询操作的反应速度。7.数据仓库VS数据集市项目数据仓库数据集市数据来源范围主题数据粒度数据结构历史数据遗留系统、OLTP系统、外部数据企业级企业主题最细的粒度规范化结构（第三范式）数据仓库部门级或工作级部门级或特殊的分析主题较粗的粒度星型模式、雪花模式、两者混合适量的历史数据优化索引大量的历史数据处理海量数据/数据索引高度索引便于访问、分析、快速

11、查询高度索引8.数据仓库的体系结构数据仓库系统的层次结构数据仓库在逻辑上可以分为：数据获取/管理层、数据存储层、数据分析/应用层 1. 数据获取/管理层：（1）.数据仓库的定义与修改、（2）.数据的获取、（3.）数据仓库系统的管理 2.数据存储层：是数据仓库的主体，包括（1）.从外部数据源抽取数据，经清洗、转换处理，并按主题进行组织和存放称其为业务数据仓库（2）.数据仓库的元数据（3.）针对不同的数据挖掘和分析主题而生成的数据集市 3.数据分析/应用层：（1）查询/统计功能（2）OLAP服务（3）数据挖掘服务9.数据仓库的构造模式（加上有反馈的六种）1、自顶向下模式2、自底向上模式、3、平行开

12、发模式1.自定向下模式特点：在这种模式下，数据集市是数据仓库的真子集，数据由数据仓库流向数据集市。数据仓库的设计过程直观，概念清晰，易于只要对外部数据源所支持的决策有较深入的额理解，保证各数据集市都是数据仓库的真子集，就可以完全消除信息之间的“蜘蛛网”现象。这种模式不足之处在于要求设计者对具体业务有较深入的理解，系统设计规模较大，实施周期过长，项目见效缓慢，尤其是在项目实施初期，成效并不明显构造方向：从左到右决策分析主题数据集市数据仓库外部数据源2.自底向上模式自底向上模式设计思路是先具体，后综合构造方向：从右到左决策分析主题数据仓库数据集市外部数据源特点：投资少，见效快，由于数据

13、集市缺少元数据，因而最终构造数据仓库的过程具有一定的难度，并有可能影响数据仓库整体构造的合理性以及系统的运行效率3.平行开发模式（又称企业级数据集市模式）平行模式是在自顶向下模式的基础上，吸收了自底向上的优点发展而成的，是他们的有机结合。4.改进的开发模式均在上面介绍的基础上经改进发展而来，共同特点是：按照软件工程学的观点，接收用户对所构建的数据仓库系统的反馈信息，加以分析和整理，并以此为依据，对数据仓库进行修改，以不断提高数据系统对决策的支持能力。12.联机分析处理p40联机分析处理OLAP定义：OLAP是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据

14、的目的。目标是满足决策支持或多维环境下特定的查询和报表需求，因此OLAP可以说是多维数据分析工具的集合。OLAP是针对特定问题的联机数据访问和分析处理OLAP功能：数据分析、报表（p67）13.OLAP相关的基本概念p41变量：是数据的实际意义，用来描述数据”是什么”维:是人们观察数据的特定角度维的层次：人们观察数据的某个特定角度还可以存在细节程度不同的多个描述，这就是维的层次维的成员：维的一个取值称为该维的的一个成员多维数组：是维和变量的组合表示数据单元：是多维数据的取值14.OLAP准则（12条，选择题）p441.OLAP模型必须提供多维概念2.透明性3.存取能力准则4.稳定的报表能力5.

15、客户服务器体系结构6.维的等同性准则7.动态的稀疏矩阵处理准则8.多用户支持能力9.非受限的夸维操作10.直观的数据操作11.灵活的报表的生成12.非受限维语聚集层次简化的5条原则：1.快速性、2.可分析性、3.共享性、4.多维性、5.信息性15.OLAP基本分析动作，每个动作是什么意思p49数据切片：多维数据的子集是多维数据的维i上切片数据切片是一种优化功能，可以帮助将查询指向相应的数据。数据切片无法为分区指定数据源。也就是说，数据切片不能用于限制从分区事实数据表中选择的数据和包含在分区中的数据。数据切片仅适用于使用ROLAP存储模式的对象。使用分区向导创建分区时，可以指定一个数据切片。数据

16、切块：是将完整的数据立方体切取一部分数据而得到得心的数据立方体数据钻取：就是从较高的维度层次下降到较低的维度层次上来观察多维数组数据聚合:是钻取得逆向操作，是对数据进行高层次综合的操作数据旋转：16.OLAP数据组织1、多维数据组织MOLAPp57多维数据库基于多维数据库的MOLAP（多维联机分析处理）是以多维数据库（MDDB）为核心的。简言之，多维数据库是以多维方式来组织和存储数据。2、关系数据组织ROLAPp60ROLAP（关系联机分析处理）将多维结构进行分解，利用两种表来表达多维信息。17.星形结构的存储实现 p61-62、雪花结构星型模型由事实表和多个维度表组成。事实表中存放大量关于企

17、业的事实数据，对象个数通常都很大，而且非规范化程度很高。为度表中存放描述性数据，维度表是围绕事实表建立的较小的表。事实表是星型模型的核心，数据量大，冗余小维度表是事实表的附属表优点：星形模型是非规范化的，以增加存储空间的代价，提高了多维数据的查询速度。而规范化的关系数据库设计是使数据的冗余保持在最少，并减少了当数据改变时系统必须执行的动作。容易从维度表中的数据分析开始，获得维度关键字，以便连接到事实表进行查询，减少事实表中扫描数据量，从而提高查询性能缺点：当事务问题发生变化，原来的维度不能满足要求时，需要增加新的维。由于事实表的主键由所有的围标的主键组成，这种维度的变化带来数据变化将是非常复杂

18、非常耗时的。星形模型的数据冗余量很大。2雪花模型雪花模型由一个事实表和多个维度表组成雪花模型增加了用户必须处理的表的数量，增加了某些查询的复杂性。但这种方式可以是系统进一步专业化和实用化，同时降低了系统的通用程度。优点：雪花模型在星型模型基础上，引入一个新表-详细类别表，借助这个表对维度表进行描述，提高了数据模型的规范化程度，并使之具有较低的粒度。雪花模型减少冗余，将表细化，具有较高的灵活性；是最大限度的减少数据存储量，以及把较小的维度表联合在一起来改善查询性能。缺点：随着表的数量的增多，表之间的关联会增加，存在着降低系统性能的可能。雪花模型是对星形模型的扩展，雪花模型对星形模型的维度表进一步

19、层次化，原来的各维度可能被扩展为小的事实表，形成一些局部的“层次”区域。18.星形模型和雪花模型的差异（p63，好像是选择？）星型模式VS 雪花模式1.雪花模式的维表可能是规范化的，以便减少冗余。这种表易于维护，并节省存储空间。2.实际上，与巨大的事实表相比，这种空间的节省可以忽略。3.由于执行查询需要更多的连接操作，雪花结构可能降低浏览的性能。4.在数据仓库设计中，雪花模式不如星型模式流行。相同点：进行OLAP处理，是以外键为基础进行维表与事实表、维表与维表之间的关联操作不同点：雪花模型虽然具有较小的事实表，但在执行某些查询时，需要做表间的二次链接运算，占用CPU资源较多，因而其与运行效率可

20、能低于星型结构模型19.两种数据组织的比较（MOLAP、ROLAP）P66表格1.结构分析：两种组织都满足OLAP数据处理流程，即数据装入、汇总、建立索引和提高使用方法。MOLAP较之ROLAP要简明一些。MOLAP的索引及数据综合可以自动完成，根据元数据。自动管理所有的索引及模式，灵活性弱；ROLAP的实现较为复杂，但灵活性强2.数据存取速度：MOLAP相应速度快，ROLAP相应速度慢3.数据存储容量：ROLAP对于存储容量没有限制，MOLAP有限制4.维度变化的适应性：MOLAP支持高性能的决策型计算，包括跨维计算、行级计算；ROLAP无法完成多行的计算和维之间的计算5.多维计算机能力：R

21、OLAP适应性更好6.数据变化的适应性：ROLAP对于数据变化的适应性高7.软硬台平台的适应性：ROLAP对软硬件平台的适应性很好，MOLAP则相对性差8.元数据管理：元数据是OLAP和数据仓库的核心数据，OLAP的元数据包括层次关系、计算转化信息、报表中的数据项描述、安全存取控制等MOLAP以多维数据库为核心，在数据的存储和综合上有明显的优势，但它不适应太大的数据存储，特别对于汗大量稀疏数据的存储将浪费大量的存储空间；ROLAP以RDBMS为基础，利用成熟的技术为用户的使用和数据管理带来方便9.系统培训和维护工作项目数据存储技术特征MOLAP详细数据通过关系表存储在数据仓库中；各种汇总数据保

22、存在多维数据库中；从数据仓库中询问详细数据，从多维数据库中询问汇总数据有MOLAP引擎创建；预先建立多维数据立方体；多维视图存储在阵列而非表格中；可以高速检索矩阵数据；利用稀疏矩阵技术来管理汇总的稀疏数据询问的相应速度快；能轻松的适应多维分析；有广泛的钻取和多层次/多视角查询能力ROLAP全部数据以关系表形式存储在数据仓库中，可获得细节的综合汇总的数据；有非常大的数据容量；从数据仓库中询问所有数据使用复杂SQL从数据库中获取数据；ROLAP引擎在数据分析中创建多维数据立方体；表示层能够表示多维视图在复杂的数据分析功能上具有局限性，需要采用优化的OLAP；向下钻取数据较容易，但死跨维向下钻取数据

23、较困难24.概念模型设计p83很多，自己看特点：1.反映现实世界，满足用户对数据的需求，能帮助用户做出决策，是现实世界的真实模型 2.易于用户理解和参与，便于与用户交流 3.易于修改，能够随时根据用户需求的变化对模型进行修正与扩充 4.易于向数据仓库的数据模型（星型模型、雪花模型、事实星座模型）进行转换24.1逻辑模型设计逻辑模型包括：1.初始数据组、2.二次数据组、3.连接数据组、4.类型数据组维度表的设计：维度表示事实表的进一步细化，它也要基于逻辑模型来设计；维度表就是将这些详细说明的额数据按逻辑关系进行存放工具。一个维度表拥有很多属性，参考事实表的数据。事实表的设计：事实表是星型模型的核

24、心，通常包括：键（主键、外键）和详细指标，事实表需要大量的数据来对其属性和细节加以详细说明索引策略：了解B树P9925.元数据的类型p1021、按元数据描述的内容分基于基本数据的元数据、关于数据处理的元数据、关于企业组织的元数据2、按用户的角度分技术元数据、业务元数据3、按元数据在数据仓库中承担的任务分静态元数据动态元数据4、按数据仓库的功能区域分类：1.数据获取、2.数据存储、3.信息传递螺旋式开发方式：26.元数据的作用：P1041、元数据在数据求精、开发、重构中的作用（1）描述业务规则与数据之间的映射（2）数据分割（3）概括与聚集（4）提高系统灵活性（5）定义标准处理规则（6）预算与推导

25、（7）转换与再映射2.元数据在数据抽取与转换中作用（1）确定数据源（2）保证数据仓库内容的质量（3）实现属性间的映射与转换元数据的收集：1.来源于源系统、2.来源于抽取的数据、3.来源于转换与抽取和清洗的数据、4.来源于存储的数据、5.来源于装载的数据、6.来源于信息传递26.粒度的划分：粒度数据仓库数据单元的详细程度和级别每个表的存储空间应是其数据存储空间和索引空间之和（1）数据存储空间的估算数据存储空间=表的行数X每行占用的空间（2）索引存储空间估算索引存储空间=表的行数X码占用的客户一年数据5年数据10000000双重粒度，仔细设计20000000双重粒度，仔细设计1000000双重粒度

26、10000000双重粒度100000单粒度，仔细设计1000000单粒度，仔细设计10000不考虑100000不考虑28.建立数据仓库的的步骤：（1）收集并分析业务需求（2）建立数据模型和数据仓库的物理设计（3）定义数据源（4）选择数据仓库技术和平台（5）从操作型数据库提取、转换和净化数据并将其加载至数据仓库（6）选择访问和报表工具（7）选择数据库连接软件（8）选择数据分析和数据展示软件（9）更新数据仓库30. SQL Server2005是基于客户-服务器模型的关系型数据管理系统工具：（1）关系数据库:作为数据仓库设计、构造和维护的基础（2）数据转换服务：用于向数据仓库加载数据（3）数据复制

27、：用于分布式数据仓库分布和加载数据（4）Analysis Services：用于采集和分析数据仓库中的数据（5）OLB DB：提供应用程序与数据源的API（6）PivotTable：用于定制操作多维数据的客户接口（7）English Query：提供使用自然语言查询数据仓库（8）Meta Data Services：浏览数据仓库中的元数据30.2Analysis Server 包括算法： 1.分类算法、2.回归算法、3.分割算法、4.关联算法、5.顺序分析算法33,数据挖掘的概念数据挖掘就是从大量的、不完全、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、事先未知的、但又具有潜在价值的

28、信息和知识的过程34.知识类型：1.广义知识：是指类别特征的概括型的描述2.关联知识：是反映一个事件和其他事件之间的依赖或关联的知识3.分类知识：反映同类事物共同性质的特征知识和不同事物之间的差异性特征知识4.预测型知识：根据时间序列型数据，由历史的和当前的数据推测未来的数据，也可以认为是以时间为关键属性的关联知识5。偏差型知识：是针对差异和极端特例的描述，揭示事物偏离常规的异常现象36.数据挖掘的分类：1.从数据分析的角度出发，数据挖掘分为：描述性数据挖掘、预测型数据挖掘数据清洗1.空缺值；是指所关心的某些属性对应的部分属性值是空缺的实现方法：1.忽略元祖2.人工填写空缺值3.使用一个全局常量填充空缺值4.使用最可能的值填充空缺值2.噪声：是指一个测量变量中的随机错误或偏差。3.不一致性：对于无法判断不一致的数据的真实值的情况，可以采用处理空缺值的方法进行处理37.数据集成数据集成是指将来自不同数据源的数据整合成一致的数据存储元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成数据转换常用的数据转换方法：平滑、聚集、数据概化、规范化、属性构造 . .

注意事项

本文（数据仓库与数据挖掘期末复习.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。