数据挖掘.docx
- 文档编号:5707761
- 上传时间:2022-12-31
- 格式:DOCX
- 页数:21
- 大小:124.47KB
数据挖掘.docx
《数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据挖掘.docx(21页珍藏版)》请在冰豆网上搜索。
数据挖掘
文献翻译
二级学院
班级
学生姓名学号
数据挖掘导论
我们生活的时代通常被称作信息时代。
因为我们相信信息带来权利和成功,同时感谢先进的技术如计算机,卫星等。
我们一直在收集大量的信息。
最初,随着计算机和大规模数字存储方法的出现,我们开始收集存储各种各样的数据,依靠计算机的能力去帮助整理这种混合物的信息。
这些存储在不同结构的大量数据迅速的铺天盖地。
这最初的混乱导致了结构化数据库和数据库管理系统(DBMS)的创立。
高效的数据库管理系统已经成为大量语料库数据的重要资产,特别是无论何时需要都能有效并且高效的从一个大的集合中检索特定的信息。
数据库管理系统的扩散也已经对最近的大量信息收集做出了贡献。
今天,我们有远超过我们处理能力的信息:
来自商业交易和科学数据包括卫星图片,文字报告和军事情报。
信息检索对于做出决策而言已经不再适应。
面对巨大的数据集合,现在我们已经有了新的需求来帮助我们做出更好的管理抉择。
这些需求是数据自动汇总,听取存储信息的精华以及发现原始数据中的模式。
我们收集什么样的信息?
我们一直从简单的数据测量和文本文件中收集大量的数据,更复杂的信息,例如空间数据,多媒体通道,超文本文件。
这里是所收集的各种信息的非排他性列表数字形式的数据库和平面文件。
商业交易:
在商业中的每一笔交易(通常)都被永久的记录下来。
此类交易通常是和时间有关的,可以是企业间交易,如采购,交易所,银行,证券等,或者是
企业内部的操作,如内部商品和资产的管理。
大百货公司,例如,由于条形码的广泛使用,储存每天数以百万计的交易往往代表数TB的数据。
随着硬盘的价格不断下降,存储空间已不是主要的问题,但是对于在竞争激烈的世界中生存的竞争决策来说,在一个合理的时间框架有效地利用数据是首先要解决的问题
科学数据:
无论是在瑞士的核加速器实验室计数粒子,在加拿大的森林研究读数从灰熊无线电项圈,在南极冰山收集有关海洋的活动数据,或在美国大学研究人的心理,我们的社会正在积累大量有待分析的数据,不幸的是,我们可以捕捉
和存储更多新数据的速度远远快于我们已经可以分析的已经积累的旧数据。
医疗和个人数据:
大量的有关个人和团体的资料正在被来自于政府人口普查人员和客户所收集。
各国政府,公司和组织,如医院,都储存非常重要的量的个人资料,以帮助他们管理人力资源,更好地了解市场,或者干脆协助客户。
不管隐私问题这种类型的数据往往揭示,该信息被收集,利用,甚至共享。
当与其他数据关联起来的时候就可以揭示客户的行为和爱好。
监控录像和图片:
随着摄像机价格惊人的下降,摄像机正变得无处不在。
来自于监控器的录像带通常被纪录下来同时也会丢失,然而,现在的倾向是存储磁带和偶数数字化以供将来使用和分析。
卫星遥感:
全球各地的卫星不计其数,有些是在一个地区上方静止,有些是围绕地球轨道运转,但是所有的卫星每时每刻都在发送数据到地面。
NASA,它控制
大量的卫星,每秒钟都在接收大量超过NASA所有研究人员和工程师处理能力的数据。
许多卫星照片及数据在被接收的同时就被公之于众,以便其他的研究人员能够分析它们。
游戏:
我们的社会正在收集大量数据并且统计了游戏,玩家和运动员的信息。
从曲棍球比分,篮球传球和赛车失误,游泳时间,拳击手的推和国际象棋的位置,所有的数据都被存储下来。
评论员和记者利用这些信息进行报道。
但教练员和运动员都希望利用这些数据来提高比赛表现和更好地了解对手。
数字媒体:
便宜扫描仪的增殖,桌面视频摄像机和数码相机是数字媒体库暴增的原因之一。
此外,许多电台,电视台和电影制片厂正在数字化音频和视频收藏,以改善他们对多媒体资产的管理。
协会组织,如NHL和NBA已经开始将其庞大的游戏集合转换成数字形式。
CAD和软件工程数据:
有众多为建筑师设计的建筑物或工程师设想系统组件或电路而设计的电脑辅助设计(CAD)系统。
这些系统生成巨大的数据量。
软件工程是源与代码相当类似的数据,如函数库,对象等,它们需要功能强大的工具进行管理和维护。
虚拟世界:
有许多应用利用三维虚拟空间。
它们包含的空间和对象被特殊的语言描述出来,例如VRML。
理想情况下,这些虚拟空间被一些能够共享对象和地点的方式描述出来。
这些存储库的管理以及基于内容的搜索和检索仍在研究问题,而集合的规模继续增长。
文字报告和备忘录(电子邮件):
大部分的沟通交流范围是在公司或研究机构甚至私人人与人之间,基于报告和文本形式记事往往通过电子邮件交换。
这些消息被定期保存在供将来使用和参考创建数字形式强大的数字图书馆。
万维网库:
万维网从1993年起,各种形式,内容和说明文件已经开始被收集起来,并与超链接相互连接使它成为有史以来建造的最大的资料数据库。
尽管它的动态化和非结构化的性质,其异构特性,经常冗余并且易变,万维网是经常使用的重要的数据收集地点。
因为广泛覆盖各种主题和无限贡献的资源及出版商。
许多人认为,万维网将会成为人类的知识汇编。
什么是数据挖掘和知识发现?
随着大量数据被存储在文件,数据库和其它信息库中,这显得日益重要。
如果没有必要,开发有力手段进行分析或许能解释这些数据,并提取有趣的知识从而帮助决策。
数据挖掘,也俗称为知识发掘数据库(KDD)是指以隐含的,事先未知的,数据库中潜在的有用数据,而数据挖掘和知识发现数据库(或KDD),经常被视为同义词。
数据挖掘实际上是知识发现过程的一部分。
如下图(图1.1)显示的数据挖掘作为迭代知识发现过程的一个步骤。
图1.1数据挖掘是知识发现的核心
该数据库知识发现过程包括几个过程,主要从原始数据收集到某种形式的新知识。
迭代过程由以下步骤:
数据清理:
也称为数据清洗,这是一个把干扰数据和不相关的数据从集合中删除的阶段。
数据整合:
在这个阶段,多个数据源,往往异类,可在一个共同的源进行组合。
数据的选择:
在这一步骤中,相关的分析数据从数据集合中检索出来。
数据转换:
也称为数据整合,这是阶段中选择的数据被转换成适合于挖掘过程的
数据开采:
这是个重要的过程,在这个过程中巧妙地技术被用于提取可能有用的模式。
模式评价:
在这个步骤中,代表知识的严格有趣的图案被给定的措施所识别。
知识表示:
是最后阶段,在这个阶段中发现的知识形象的展示给用户。
这个重要的步骤使用可视化技术来帮助用户理解和解释数据挖掘结果。
如,数据清理和数据集成可以一起作为一个预处理阶段,以产生一个数据来执行仓库。
数据选择和数据转换,也可以组合其中的合并的数据作为选择的结果,或者关于数据仓库的实例。
转换数据的选择就完成了。
KDD是一个反复的过程。
一旦发现知识被呈现给用户,评价措施可以提高,采矿可以进一步细化,新的数据可以被选定或进一步转化,或者新的数据源可以被集成,以得到不同的,更适当的结果。
数据挖掘的名字源于在大的数据库中寻找有价值的信息和挖掘岩石寻找有价值的矿石纹理之间。
这两种暗示或者筛选通过大量的材料或该材料巧妙探测到价值所在。
它是,但是,用词不当,因为开采金岩石中,通常被称为“金矿”,而不是“石头开采”,从而举一反三,数据挖掘应该被称为“知识挖掘”。
然而,数据挖掘成为了公认的习惯用语,并有迅速发展的趋势,甚至掩盖更一般的术语,如数据库知识发现(KDD),它描述一个更完整的过程。
其他类似术语提到数据挖掘是:
数据疏浚,知识提取和模式发现。
什么样的数据可以开采?
原则上,数据挖掘不是特定于一种类型的媒体或数据。
数据挖掘应适用于任何类型的信息库。
然而,当施加到不同类型的数据时算法和方法可能会有所不同,事实上,提交不同的数据所面临的挑战是非常显著的。
据挖掘被投入使用,并且数据库的研究,包括关系数据库,对象关系数据库和面向对象数据库,数据仓库,事务数据库,非结构化和半结构化库如万维网,先进的数据库,如空间数据库,多媒体数据库,时间序列数据库和文本数据库,甚至平面文件。
下面是更详细的一些例子:
平面文件:
平面文件实际上是数据挖掘算法中最常见的数据源,特别是在研究水平。
平面文件是简单的文本数据文件或与由数据挖掘算法已知的结构二进制格式的应用。
这些文件中的数据可以是交易,时间序列数据,科学测量,等等。
关系型数据库:
简单地说,一个关系数据库由一组包含实体属性或者数值从实体的属性,或价值关系的表组成。
表有列和行,其中列代表属性,行表示元组。
在关系表中的元组对应于一个对象或对象之间的关系,并且由一组属性的确定
值代表一个独特的密钥。
在图1.2中,我们提出了一些关系客户,项目,并借代表一个虚构的视频商业活动存储OurVideoStore。
这些关系是什么可能是一个公正的一个子集数据库用于视频存储和被给定为一个例子。
图1.2视频存储在关系数据库中的一些关系的片段
最常用的查关系数据库询语言是SQL,它允许检索和操纵存储在表中的数据以及作为聚合函数,如平均,总和,最小值,最大值和计数计算。
例如,一个SQL查询,选择按类别分组的视频将是:
SELECTCOUNT(*)FROM项目WHERE类型=视频GROUPBY类别。
使用关系数据库中专门为平面文件写入的数据挖掘算法可以比数据更灵活。
因为它们可以利用内在关系数据库结构。
而数据挖掘在数据选择,转换和整合时可以从SQL中受益。
它超越SQL可以提供的范围,例如预测,比较,检测偏差等。
数据仓库:
数据仓库作为一个仓库,是存储来自多个数据源收集的数据(通常多相)并且旨在用作整个相同的统一模式下。
数据仓库使选项来分析来自同一个屋檐下不同来源的数据。
让我们假设OurVideoStore成为北美特许经营。
很多属于OurVideoStore的音像店公司可能有不同的数据库和不同结构。
如果公司的高管希望从所有商店访问数据来进行战略决策,未来的发展方向,市场营销等,那就会适当的用一个允许交互式分析的均匀结构在一个位置来存储所有的数据。
换句话说,来自不同存储的数据将会装载,清洗,转化和整合在一起。
为了便于决策
和多维视图,数据仓库通常由多维数据结构建模.1.3显示了一个用OurVideoStore数据维子集的数据立方体结构的例子。
图1.3:
应用于数据仓库中的一个多维数据立方体结构中常用数据
图表显示了电影以租金类别划分,然后跨表总结了租金电影类别和时间(季度)数据立方给出了总结租用服务,以及三个维度:
类别,时间和城市。
维数据集包含存储的一些措施总值(在此细胞情况下出租计数),和沿着维度存储总和的特殊小区。
数据立方体的每个维度中包含的值的一个属性的层次结构。
预先计算它们包含的汇总数据和层次维度的数据值,数据立方体非常适合快速交互查询,并在不同的概念层次分析数据,以在线即时分析处理而闻名(OLAP)。
OLAP操作允许导航在不同的抽象级别,例如钻取,卷起,切片,骰子数据等等。
图1.4显示了向下钻取(在时间维度),并汇总(上位置的尺寸)的操作。
图1.4:
从OurVideoStore数据。
总结前后,向下钻取和汇总操作
交易数据库:
一个交易数据库是一组代表交易的记录,每一个时间标记,识别符和一组项目。
和交易关联的文件也可以是描述性数据的项。
例如,在音像店的情况中,如图1.5所示,租金表代表交易数据库。
每一条记录是一个租房合同和一个客户标识,日期和租用的项目(即录像带,游戏列表,VCR等)。
因为关系数据库不容许嵌套表(即设为属性值),交易数据通常存储在平面文件或存储在两个归一化的交易表,一个用于记录,一个用于该事务项目。
一个典型的在这些数据的数据挖掘分析是在其中的物品之间的关联发生的所谓marketbasket分析或关联规则一起或顺序进行了研究。
图1.5:
租金在OurVideoStore一个交易数据库的片段。
多媒体数据库:
多媒体数据库包括视频,图像,音频和文字媒体。
它们可以存储在扩展的对象关系或面向对象数据库,或者干脆在一个文件系统。
多媒体的特点是它的高维数,这使得数据挖掘甚至更具挑战性。
数据挖掘从多媒体资料库可以要求计算机视觉,计算机图形学,图像判读,和自然语言处理的方法。
间数据库:
空间数据库是数据库,除了通常的数据,存储喜欢的地图,以及全球性或区域性的定位地理信息。
这样空间数据库给数据挖掘算法提出了新的挑战。
图1.6:
空间OLAP的可视化(来自GeoMiner系统)
时间序列数据库:
时间序列数据库包含时间相关的数据,股市数据或记录的活动。
这些数据库通常具有连续的的新的数据流进来,这有时会导致需要一个具有挑战性的实时分析。
在这样的数据库中的数据挖掘通常包括不同变量的演变之间趋势和相关性的研究,以及预测趋势和时间的变量动作。
图1.7显示时间序列数据的一些例子。
图1.7:
时间序列数据的例子(来源:
汤普森投资集团)
万维网:
万维网是可用的最异构和动态的数据库。
大量的作者和出版商
不断促进其生长和变质,同时每天有巨大的用户数访问其资源。
数据在万维网组织相互连接的文件。
这些文件可以是文本,音频,视频,原始数据,甚至应用程序。
从概念上讲,该万维网是由三个主要部分组成:
在Web中,其内容包括文件发售;网络的结构,其覆盖超链接和文档之间的关系;纸幅的用途,描述资源被访问的方式和时间。
第四个维度可增加有关的动态性质的文件或演变。
数据挖掘万维网,或Web挖掘,试图解决所有这些问题,往往是分为Web内容挖掘,Web结构挖掘和Web使用挖掘。
什么可以被发现?
该种图案可以别发现取决于采用数据挖掘任务。
总的来说,有两种类型的数据挖掘的任务:
描述性数据挖掘,描述现有数据的一般性质的任务,并预测数据挖掘
试图基于现有数据推断做预测的任务。
数据挖掘功能,在下面的列表中他们对发现的各种知识进行了简要呈现
特性:
数据特征是在目标类对象一般特征的总结,并产生所谓的特征规则。
数据
有关用户指定的类通常由数据库查询检索并通过聚合模块运行,在不同抽象的水平提取数据的本质。
例如,人们可能想要以表征OurVideoStore客户谁经常一年租用超过30部电影。
同上描述目标的类的属性的概念层次结构,所述面向属性
感应方法都可以使用,例如进行数据总结。
需要注意的是用含有数据的汇总数据立方体,简单的OLAP操作适合数据特性的目的。
歧视:
数据的歧视,创造了所谓的判别规则。
并且基本上是两个物体之间的一般特征比较,称为目标类和反衬类,例如,一个要比较租超过30部电影的客户的一般特性,在去年那些租房账户低比5。
用于数据判别的技术和用于数据表征是非常相似的,用于数据表征不同之处在于数据的技术判别结果包括比较措施。
关联分析:
关联分析是通常被称为关联规则的发现。
它研究项目在交易数据库中发生一起的频率,并基于称为支持标识频繁项集的阈值。
一个阈值,信心,这是
比较在一个事务出现时另一个项目出现时项目的条件概率,用于精确定位的关联规则。
关联分析常用于购物篮分析,例如,它可能是OurVideoStore管理者用于
知道什么电影经常一起租用或者租某种类型的电影,买爆米花和之间是否有某种关系。
发现的关联规则的形式是:
P®Q[S,C],其中P和Q是属性值对连接词,s(支持)的概率是P和Q交易一起出现时的概率,c(信心)的条件概率是当P是存在概率时Q出现在一个交易的概率。
例如,该假设的关联规则:
RentType(X,“游戏”)×年龄(X,“13-19”)®买入(X,“啪”)[S=2%,C=55%]将表明,考虑到租用一个游戏,购买流行2%交易的客户年龄在13和19之间,并且有55%的把握认为青少年客户不仅租用游戏还购买流行。
分类:
分类分析是在给定的数据类的组织。
也被称为监督分类,分类使用给定的类标签订购数据收集的对象。
分类方法通常使用训练集,所有对象已经与已知的类标签相关联。
分类算法学习的训练集,建立一个模型。
该模型被用于新的对象进行分类。
例如,在开始的信贷政策后,在OurVideoStore管理者可以分析客户的行为可见他们的信用,以及收到贷款的客户有三个可能的标签,“安全”,“风险”和“风险很大”。
分类分析产生在未来可用于接受或拒绝信用请求。
预测:
预测已经引起相当多的关注考虑到成功预测的在商业环境中可能产生的影响。
有两个主要类型的预测:
一是可以尝试预测了一些不可用的数据值或未决的趋势,或预测一类标签的一些数据。
后者被连接到分类。
一旦分类模型是基于训练集建,类对象的标签可以基于对象的属性值和预见类的属性值。
预测但是更经常提到的在时间相关的预测缺失的数值,或增加/减少趋势数据。
主要的想法是使用大量过去值考虑未来可能值。
聚类:
类似分类,聚类是数据的组织
类。
然而,与分类,聚类不同的是,类标签是未知而且它是由聚类算法发现可接受的类。
集群是也被称为非监督分类,因为通过给定类的标签分类不支配。
有许多聚类方法基于所述在同一类最大化对象之间的相似性的原则(类内相似性)和尽量减少不同类的对象之间的相似性(类间的相似性)。
离群分析:
离群是不能在给定的分组数据单元类或群集。
也被称为异常或惊喜,确定他们往往很重要。
而离群值可以被视为噪音,并丢弃一些应用中,他们可以在其他领域揭示重要的知识,因而可以很显著及其有价值的分析。
进化与偏差分析:
进化与偏差分析,涉及到时间改变时相关数据的研究。
进化分析模型进化趋势的数据,其中同意特征,比较,分级或时间相关的数据的聚类。
偏差分析,对其他另一方面,考虑测量值和预期值之间的差异试图寻找预期值偏差的原因。
这是常见的用户不具有的那种模式,他们可以发现一个清晰的思路或需要从数据发现在手。
有一个多功能,并包容性的数据挖掘系统是重要的,它允许在不同的抽象层次发现不同类型的知识。
这也使得交互是数据挖掘系统的一个重要属性。
所有发现都是有趣和有用吗?
数据挖掘允许发现的知识可能有用和未知的。
发现知识是否是新的,有用或有趣,是非常主观的,取决于应用和用户。
可以肯定的是数据挖掘可以生成,或发现,非常大量的图案或规则。
在某些情况下,规则的数量可以达到数以百万计。
我们甚至可以把元采矿阶段的挖掘超大数据挖掘结果。
以减少发现的模式或规则具有高概率的是不感兴趣,人们必须使用新的测量工具。
然而,这引起了完整性的问题。
用户将要发现的所有规则和模式,但只有那些很有意思。
如何测量有趣的发现称为兴趣度,可以基于量化的目标元素,如有效期模式时对新数据进行测试具有一定程度的确定性,或者在一些主观描写,如可理解的模式,该模式的新颖性,或实用性。
如果他们确认或验证假说,发现的模式也可以是有趣的。
寻求确认或意外矛盾有一个共同的信念。
这带来说明什么是有趣的探索的问题,如元规则指导下发现过程之前描述规则的形式,和兴趣度细化语言后才发现的交互查询结果有趣图案阶段。
通常情况下,测量兴趣度是基于用户设置的阈值。
这些阈值定义发现了图案的完整性。
识别和测量的模式和规则的兴趣度发现,或者是被发现,是作为一个整体的开采知识的评价和KDD过程中必不可少的过程。
虽然一些具体的测量存在,发现知识评估的兴趣度仍然是一个重要的研究课题。
我们怎样给数据挖掘系统的分类?
有许多的数据挖掘系统可用或正在开发中。
有些是专门的专用于一个给定的数据源或系统被限制在有限的数据挖掘功能,其他都更加灵活和全面。
数据挖掘系统可以在其他分类中根据不同的标准如下分类:
根据数据源的开采类型分类:
这种分类根据数据的处理,例如空间数据,多媒体数据,时间序列数据,文本数据,万维网等。
根据画出的数据模型分类:
这个分级分类的数据挖掘系统基于数据模型诸如
关系数据库,面向对象的数据库,数据仓库,事务性,等等。
根据知识的发现王分类:
此分级分类的数据挖掘系统基于知识的种类或数据挖掘功能,例如表征,歧视,关联,分类,聚类等,一些系统往往是
全面提供多种数据挖掘功能的系统。
根据所使用的开采技术分类:
数据挖掘系统采用并提供不同的技术。
这种分级分类方法根据数据分析方法挖掘系统中使用的,如机学习,神经网络,遗传算法,统计数据,可视化数据的基础上面向或数据仓库为导向等分类也可以考虑
帐户的用户交互中涉及的数据挖掘过程诸如程度查询驱动的系统,互动探索系统,或自治系统。
全面的系统将提供各种各样的数据挖掘技术来适应不同的情况和方案,并提供不同程度的用户交互。
数据挖掘的问题是什么?
数据挖掘算法体现那些有时存在多年的技术,但只有最近作为可靠的,可扩展的工具被再次应用,超越经典的统计方法。
而数据挖掘尚处于起步阶段,它
正在成为一种无处不在的潮流。
之前的数据挖掘发展成一个常规的,
成熟和值得信赖的纪律,许多人仍然悬而未决的问题必须得到解决。
这些问题将在下面讨论。
需要注意的是,这些问题不是唯一的,并且不以任何方式命令。
安全和社会问题:
安全性是任何数据的集合,是一个重要的问题共享或拟用于战略决策。
此外,当客户数据收集分析,用户行为的认识,相关的个人与其他信息等,大量的关于个人或公司的敏感信息和私人信息的数据被收集和存储。
这成为给出一些这个数据和潜在的非法访问的保密性信息的争议。
此外,数据挖掘可以透露关于新的隐性知识个人或团体,可能是对隐私政策,尤其是如果有可能的
传播发现的信息。
另一个源于这种担心的问题是适当运用数据挖掘。
各种因数据的值,数据库内容定期出售,因为竞争优势是可以实现从已发现的隐性知识,一些重要的信息可能被扣留,而其他信息可以广泛分布并没有控制使用。
用户界面问题:
通过数据挖掘工具发现的知识,只要是有趣的就是有用的,而且首先由用户理解。
良好的数据可视化简化了数据挖掘结果的解释,以及帮助用户更好地理解他们的需求。
许多数据探索性分析任务由显著便利
能够看到在合适的视觉呈现的数据。
有许多可视化想法和建议,为有效的数据图形表示。
但是,仍然有许多研究完成,以便获得用于大型数据集的良好的可视化工具可以用来显示和操作采知识。
涉及到的主要问题是用户界面和可视化的“屏幕房地产”信息,渲染,和互动。
交互性与所述数据和数据挖掘结果是至关重要的,因为它提供装置,用于在用户集中和细化挖掘任务,以及对图像的
发现知识从不同的角度,不同的概念层次。
挖掘方法论问题:
这些问题涉及到应用的数据挖掘方法和它们的局限性。
主题如多功能性开采办法,多样性可用的数据,该域的维度,广泛分析的需要(当已知的),知识的评估发现,背景知识的开发和元数据,数据噪音的控制和处理,等等都是例子,可以决定开采方法的选择。
例如,通常期望具有不同的数据挖掘方法可用自不同的方法可以执行不同根据数据在手。
此外,不同的方法可能适合解决用户的需求是不同的。
大多数算法假设数据是无噪声。
这当然是一个强有力的假设。
大多数数据集包含例外,无效或不完整信息等,这可能复杂化,如果不晦涩,在分析过程中,而且在许多情况下,危及结果的准确度。
作为结果,数据预处理(数据清理和改造)变得至关重要。
它通常被看作是浪费时间,但数据清洗,因为耗时和令人沮丧的,因为它可能是,在最重要的阶段之一知识发现的过程。
数据挖掘技术应该能够处理噪声数据或不完整的信息。
以上的数据的大小,搜索空间的大小为更决定性的数据采矿技术。
该搜索空间的大小,通常是根据数维域中的空间。
搜索空间,通常呈指数级增长,当维数增加而增加。
这就是所谓的维度的魔咒。
此“魔咒”会影响一些数据挖掘如此糟糕的表现接近,这是成为最迫切的问题来解决的。
性能问题:
许多人工智能和统计方法对数据存在分析和解释。
然而,现在这些方法往往不设计用于非常大型数据集的数据挖掘处理。
兆兆字节大小是常见的。
这就提出了可扩展性和数据挖掘方法的效率的处理时的问题相当大的数据。
与指数连中阶多项式算法复杂性不可能是实际用于数据挖掘。
线性算法通常是规范。
在相同的主题,取样可用于开采整个数据集,而不是。
但是,问题,如样本的完整性和选择可能出现。
其他主题在性能问题是增量更新,以及并行编程。
那里毫无疑问,并行可以帮助解决大小问题,如果数据集可以细分,其结果可在以后合并。
增量更新是很重要合并从并行挖掘的结果,或更新数据挖掘结果时,新数据变得可用,而无需重新分析完整数据集。
数据源的问题:
有相关的数据源的许多问题,有些是实用如数据类型的多样性,而有些则是哲学类的数据过剩问题。
当然,我们有一个多余的数据,因为我们已经有比我们更多的数据可以处理,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘