数据挖掘技术的应用研究黄解军Word文档下载推荐.docx
- 文档编号:21894107
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:26
- 大小:27.66KB
数据挖掘技术的应用研究黄解军Word文档下载推荐.docx
《数据挖掘技术的应用研究黄解军Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术的应用研究黄解军Word文档下载推荐.docx(26页珍藏版)》请在冰豆网上搜索。
医
学领域中对疑难病症的攻关和研究,结合数据挖掘技术,建立
各种医疗数据模型,找出数据本质上的联系和现象,推动医学
研究的进展。
对医学历史数据的收集和分析后,可以找到疾病
产生的原因,优化药物的搭配,提供最佳的治疗方案。
融入专家
知识和人工智能技术等,集成医学诊断专家系统,进行医疗自
动诊断,药物的疗效分析和新药物的合成。
研究人口的地区分布、年龄构成和身体状况等特征,有利
于开展药品销售、医疗设施配备和医院布局等活动。
如美国
789
公司在医药方面引入了数据挖掘技术
0:
4
,包括医药处方定
位和分割,评价药品销售效果以及建立行为预测模型;
牛津移
植中心也采用基于决策树方法的
;
<
/=+*>
.*9**?
*-
辅助他们
的研究工作。
#$@制造业中的数据挖掘
在制造业中,数据挖掘广泛地应用于控制产品生产流程和
技术规划方面。
分析产品各种指标参数的关系,优化原料的搭
配,开发新的产品类型。
根据市场信息数据库中居民密度分布、
收入状况和相应的城市规划等信息,企业可以展开产品需求量
的调查。
例如汽车制造商挖掘信息库中人口分布、区域购买力
状况及公路交通状况等信息,依据分析结果,决定产品的销售
渠道、总体和局部销售网点的规划等,对商业网进行部署,并及
时调整产品的生产导向和生产结构,这对于企业和公司的经营
状况和发展前景具有重要的影响。
在产品的控制和检测方面,孤立点分析可以用于检验产品
质量,识别偏差检测。
了解相关产品的供需比例、消费者分布等
信息,制定产品生产策略。
美国的部分大型钢铁公司将数据挖
掘技术应用在发现和探测潜在的质量问题,提高了产品的生产
质量和效率。
5
数据挖掘在应用中的几个问题
在数据挖掘技术的应用中,往往对数据挖掘缺少正确的认
识,认为数据挖掘毫无用处,结果不可靠;
或者认为数据挖掘是
万能的,从数据中可以发现想要的任何知识和信息。
这两种观
点都是不正确的,应该避免走极端,客观地认识数据挖掘。
数据
挖掘的实施需要花费很长的时间和较高的费用,在一些公司或
行业不一定会产生较好的经济效益,因此,盲目地运用数据挖
掘,也可能给公司带来包袱和负担。
在实际应用中,应该注意数
据质量、算法选取、结果评价和保护客户的个人隐私等问题。
5$:
数据质量的问题
数据挖掘中涉及到大量的数据,不可避免地会出现一些错
误的、冗余的数据,给数据挖掘带来一定的困难。
例如,数据的
缺值现象,则不能客观地反映数据的属性和特征;
含噪声的数
据会影响抽取模式的准确性;
对于超大数据量,也给知识发现
带来很大的麻烦。
在对数据进行取样时,应该根据用户挖掘的
主题,选择有效的数据集,并对数据进行清理、归并和转换等操
作,保证数据的代表性和客观性。
5$!
技术方法的选取问题
在数据挖掘的应用中,由于各种技术方法具有不同的特点
和功能,应该针对挖掘的主题和目标,选择合适的技术和算法。
例如,运用贝叶斯网络预测发生频率较低的事件,其结果的可
靠性较差;
对于大量较复杂的数据对象,使用决策树方法是不
理想的,而结合神经网络和遗传算法则可能获得满意的结果。
因此,选择市场上的数据挖掘工具时,应该了解系统的功能特
点和使用的技术算法。
5$#结果的验证与评价问题
结果的验证和评价是数据挖掘中不可缺少的环节。
这是一
个反复实验的过程,运用其他的样品进行验证,也可以选择新
的样品集进行评价,直到得出用户满意的挖掘结果为止。
挖掘的结果不一定是确切的答案,可能是一些有用的规则、模
式或模型,这与数据分析师和管理决策人员的知识背景与经验
有一定的关系。
数据挖掘是一个动态的、交互的过程
,需要不
断地改进和完善,不断地运用新的技术方法,提高挖掘性能和
效率。
5$5保护客户的个人隐私问题
目前出现了越来越多的商业信息供应商,地理信息、人口
统计和家庭背景等数据很容易购买。
特别是客户在使用信用
卡、医疗卡和保健卡等过程中,客户的工资、职业和年龄等个人
信息可能被企业采集到,这些个人隐私通过很多渠道可以获
取,有可能被不法分子用于不正当的活动中。
因此,如何保护个
人隐私的问题,以及数据安全性问题等,引起了人们的普遍关
注。
在数据挖掘应用中,这是企业应该而且必须考虑到的问题。
51!
中发现有用的依赖性或关联性的知识。
基本思路表示为:
%!
&
,其中
%
代表属性集,
代表属性个体,规则简单地解释为在
数据库的列表中,
属性集具有真值,则个体
具有真值的可
能性和趋势
’#(
货篮分析是关联分析中最常用的形式,用支持度
(
)*+,-./+)/
)和置信度(
0122*34
)两个属性值来度量,组成“支持
度
置信度”框架。
例如在零售业中,分析客户购买计算机后,购
买打印机的概率是多少?
这对于销售配货、产品布局和商务管
理等具有积极的意义。
在制造业中,可以分析事件
6
和事件
发生后,事件
7
发生的概率是多少?
这种技术常用于故障检测
和维修。
关联规则可以从大量的事务数据或关系数据中,挖掘
出感兴趣的知识和模式,在零售业、保险和通讯等行业都得到
广泛的应用。
$!
决策树
决策树主要是基于数据的属性值进行归纳分类,常用于分
类的层次方法有“
8,549/+
”规则。
决策树方法的最大优点就是可
理解性,比较直观。
它与神经网络最大的区别是,决策树可以解
释如何得出结果的决策过程。
其缺点是处理复杂性的数据时,
分支数非常多,管理起来难度很大。
同时,还存在数据的缺值处
理问题。
其算法有
8:
#
、
7;
$<
76=>
和
7?
68:
等,目前出现的
两种新算法
@A8B
@C=8D>
,可以由非常大的训练集进行决策
树归纳,可以处理分类属性和连续性属性。
$#遗传算法
遗传算法是一种基于生物进化过程的组合优化方法,它是
生物学和计算机科学结合的产物
’!
,由美国密西根大学
:
$E$
?
*FFG+.
教授和他的同事们在
HIJ<
年首次提出。
根据适者生存
的原则,模拟自然界中的生命进化机制,形成由当前群体中最
适合的规则组成新的群体,以及这些规则的后代。
基于这一思
想的应用,根据遗传算法获得最适合的模型,并进一步对数据
模型进行优化。
由于遗传算法是一种弱方法,对问题的信息要
求较少,具有高效性和灵活性的特点。
在数据挖掘中,也用于评
估其它算法的适合度。
该算法擅长于数据聚类,通过时间上的类比和空间上的类
比,可以使大量繁杂的信息数据系统化、条理化,从而找出数据
之间的内在联系,得出有用的概念和模式。
在建立数据模型时,
将遗传算法与神经网络相结合,可以更好地提高模型的可理解
性。
遗传算法广泛应用于自动控制、机器学习、模式识别、搜索
调度和组合优化等领域。
$;
贝叶斯网络
贝叶斯网络基于后验概率的贝叶斯定理,是建立在对数据
进行统计处理基础上的方法。
将不确定事件通过网络连接起
来,可以对与其他事件相关的事件的结果进行预测,其网络变
量可以是可见的,也可以隐藏在训练样本中。
贝叶斯网络具有
分类、聚类、预测和因果关系分析的功能,其优点是易于理解,
预测效果较好,缺点是对发生频率很低的事件预测效果不好。
在医学和制造业等领域的应用具有较好的效果。
粗糙集方法
粗糙集(
3*1K90/4
)理论是波兰
L.M-0N/OCGOFGN
教授在
HIP!
年提出的,它是一种新的数学工具。
这一方法在数据挖掘
中具有重要的作用,常用于处理含糊性和不确定性的问题,发
现不准确数据或噪声数据内在的结构联系,也可以用于特征归
约和相关分析。
粗糙集可以看成是含糊概念的一个数学模式,
其主要优点就是不需要任何关于数据的初始的或附加的信息,
因此广泛应用于不确定、不完整的信息分类和信息获取。
粗糙
集理论和技术的出现,大大地提高了数据挖掘和知识发现的效
率。
$Q
神经网络
神经网络是最常用的数据挖掘技术之一,最早由心理学家
和神经生物学家提出的,旨在寻求开发和测试神经的计算模
拟。
它类似于人类大脑重复学习的方法,先给出一系列的样本,
进行学习和训练,从而产生区别各种样品之间的不同特征和模
式
’;
样本集应该尽量体现代表性,为了精确地拟合各种样本数
据,通过上百次,甚至上千次的训练和学习,系统最后得出潜在
的模式。
当它遇到新的样品数据时,系统就会根据训练结果自
动进行预测和分类。
最大的特点是难于理解,即无法解释如何
得出结果和使用了什么规则。
它需要很长的训练时间,需要大
量的参数,而且解释性较差。
该算法的优点是对复杂问题能进
行很好的预测,对噪声数据的承受能力比较高,以及它对未经
训练的数据分类模式的能力。
神经网络可细分为前馈式、反馈式和自组织神经网络,具
有优化计算、聚类和预测等功能,在商业界得到广泛的应用。
金
融市场采用神经网络建立信用卡和货币交易模型,用于识别信
贷客户、股票预测和证券市场分析等方面。
$J统计分析
统计分析的理论基础主要是统计学和概率论的原理,是一
种较为精确的数据挖掘技术。
它是一种基于模型的方法,包括
回归分析、因子分析和判别分析等,该方法的优点是容易理解,
对结果描述精确。
统计分析在实际应用中较为广泛,著名的统
计产品供应商
@C@@
公司开发了
@R@>
6>
统计软件包,
同时,
@6@
公司也开发出相应的产品
ESC
,这些产品都
占有一定的应用市场。
数据挖掘技术的应用
数据挖掘技术在商业方面应用较早,它可以增强企业的竞
争优势,缩短销售周期,降低生产成本,有助于制定市场计划和
销售策略。
目前,已经成为电子商务中的关键技术
’Q(
由于数据
挖掘在开发信息资源方面的优越性,已逐步推广到保险、医疗、
制造业和电信等各个行业的应用。
#$H零售业中的数据挖掘
零售业是数据挖掘应用较为活跃的一个领域。
了解客户的
购买习性和趋向,对于零售商制定销售策略是至关重要的。
通
过关联规则挖掘,分析客户对直接邮件的响应率,发现有利顾
客的特征,有目的性的开展广告和销售业务。
通过对顾客的忠
诚度分析,相应调整商品的价格和类型,改进销售服务,有利于
保留现有客户,寻找潜在的客户。
扩大销售的范围和规模,从而
增加销售量。
通过在线销售的数据,得出产品关联的商用信息
和客户的购买习惯,使进货的选择与搭配更具科学性。
货篮子分析是数据挖掘应用在零售业中的一种有效方式,
可用于销售搭配、产品目录设计、产品定价和促销等。
优化货物
的搭配与布局,使进货与销售达到最佳的结合,减少商业成本。
促进品种优化,分析销售利润,使库存量和管理开支更加合理。
建立客户数据模型,分析顾客的购买时间、地域分布和购物方
式等信息,帮助零售商制定营销策略。
同时,根据顾客在网上的
购物行为和方式,提供个性化服务,优化销售网站的规划和设
计。
Q计算机工程与应用
技术方法主要功能和特点主要应用领域
关联分析分类、聚类零售业、保险业和制造业
决策树归纳分类,可理解性制造业、医学和零售业等
遗传算法聚类、优化;
高效性金融业、保险业和农业等
贝叶斯网络分类、聚类和预测,易理解医学、制造业和电信等
粗糙集方法不确定性分类零售业、金融业和制造业等
神经网络预测、分类和聚类,解释性差金融业、保险业和制造业等
统计分析聚类,结果精确、易理解金融业、制造业和医学等
引言
随着现代信息技术的迅猛发展,在全球内掀起了信息化浪
潮。
信息产生的渠道越来越多,信息更新的频率日益加快,各行
各业均产生了数以亿计的数据库。
人们面对着大量的数据,却
往往无法找到需要的信息,很难发现有用的知识,这就是“信息
爆炸”带来的困惑。
如何有效地利用和处理大量的数据成为当
今世界共同关心的问题。
随着数据库技术、人工智能、数理统计
和并行计算等技术的发展与融合,数据挖掘(
’(’)*+*+,
,
)
技术应运而生。
数据挖掘是一门新兴的交叉学科,自
世纪末提出以来,
引起了许多专家学者的广泛关注,数据开采、数据采掘、知识发
现和信息抽取等同义词相继出现。
目前,普遍采用的主要有数
据挖掘(
)和数据库中的知识发现(
-+./012,1&
*34.5167*+
’(’8’31
,简称
-&
)。
数据挖掘有广义和狭义之分,广义的数
据挖掘,指从大量的数据中发现隐藏的、内在的和有用的知识
或信息的过程。
狭义的数据挖掘是指知识发现中的一个关键步
骤,是一个抽取有用模式或建立模型的重要环节。
数据挖掘是
在对数据集全面而深刻认识的基础上,对数据内在和本质的高
度抽象与概括,也是对数据从理性认识到感性认识的升华。
数据挖掘在金融业、零售业、医疗和电信等领域已经得到
广泛的应用
9%:
,成为一种利用信息资源的有效方法和途径,具有
广阔的开发前景和应用市场。
然而,正确地理解数据挖掘各种
技术方法的特点与不足,以及现有的和潜在的应用范围和应用
领域,对于减少数据挖掘应用的盲目性和充分发挥技术的优
势,具有重要的参考价值和指导意义。
数据挖掘的技术方法
数据挖掘的方法通常可以分为两大类
9!
,一类是统计型,常
用的技术有概率分析、相关性、聚类分析和判别分析等;
另一类
是人工智能中的机器学习型,通过训练和学习大量的样品集得
出需要的模式或参数。
数据挖掘的应用中,最终的目标都是发
现有价值的知识和信息,有共同的思路和步骤,但也存在很大
的差异和区别。
由于各种方法都有自身的功能特点以及应用领
域(见表
),数据挖掘技术的选择将影响最后结果的质量和效
果,通常是将多种技术结合使用,形成优势互补。
下面对数据挖
掘中常用的关联分析、决策树和神经网络等几种技术方法进行
深入讨论,包括技术的基本思想、优势与缺点和主要应用领域。
表
%数据挖掘的主要技术方法对比
$%关联分析
关联分析是一种实用的数据挖掘技术,指从大量的数据集
(武汉大学遥感信息工程学院数字智能研究中心,武汉
#"
=
>
@’*0
:
ABB(CD!
%4+$4.@
摘要数据挖掘是一种新兴的信息处理技术,在信息的利用和提取中发挥着日益重要的作用。
论文从数据挖掘的概念
和本质出发,详细阐述了数据挖掘的各种技术方法,深入分析了数据挖掘技术的应用领域,并对数据挖掘应用中的主要
问题进行了探讨。
关键词数据挖掘知识发现技术方法应用领域
文章编号
%"
E##%?
F?
文献标识码
G
中图分类号
HI#=%
#$%&
’$()*+,+&
-%.()’.+/+%.)(#(01(23&
’&
4$)$)0
56&
)07$+86)9&
)5+"
$)0:
);
(6%.6&
J4K..0.LM1@.(1J1+3*+,’+2N1.*+L.6@’(*.+,&
*,*(’0O+(100*,1+41M131’64K
P1+(16,QRK’+S+*5163*(7,QRK’+;
=)
’-&
%’
’(’@*+*+,*3’T6.@*3*+,+1/(14K+.0.,7(.(6’+3’4(*+L.6@’(*.+
’+2814.@*+,’+*+461’3*+,6.01*+R(*0*UV
*+,’+21W(6’4(*+,C+./012,1$HK*3T’T16L*63(0721346*813(K14.+41T(*.+’+2(K11331+41.L2’(’@*+*+,
’+2(K1+
211T072*34R3313(K14K’6’4(16*3(*43.L*(3@1(K.23$HK1’TT0*4’(*.+2.@’*+3.L2’(’@*+*+,’61/*2107’+’07U12$G(0’3(
(K1@.3(07*33R13*+*(3’TT0*4’(*.+’61615*1/12$
=+1>
(-?
2’(’@*+*+,
C+./012,12*34.5167
@1(K.23
’TT0*4’(*.+2.@’*+3
基金项目:
国家自然科学基金项目资助(编号:
X"
%<
F"
作者简介:
黄解军,博士研究生,主要研究方向为数字智能、数据挖掘与数据仓库。
潘和平,特聘教授,博导,主要研究方向智能信息处理、信息融
合、决策分析和专家系统。
万幼川,教授,博导,主要研究方向空间信息处理与融合、地理信息系统。
F(上接
%%
页)
要哪些相关的输入信息;
求解问题
’()*
接收那些接受了任务
的
的输出结果,然后将得到的结果利用集成方法集成并
将最后的结果送至界面
;
界面
将得到的结果送给
用户。
#$%&
’()*之间的通讯
在系统中,
之间的通讯采用黑板通讯和信息传递两
大类。
之间需要建立以下这些通讯。
)管理
与其它
之间采用同步通讯,将各个
的名称和地址表送给其它的
当有新的
加入
或有
删除造成地址表改变时,管理
将给其它
发送新的地址表。
)界面
之间采用同步通讯和异步
通讯两种信息传递方式,用以传递控制信息。
+关键问题
+$%知识库中知识的表示的主要形式
系统中知识库中的知识主要以规则表示方:
-
(前提
是真)
……
./01
(结论
2
的可信度
或:
(向管理
发出请求)
前提条件
,…,
之间可以放入四种布尔运算符。
+$!
典型案例的存储形式
345
一个典型案例用多元组
#$
《
》表示。
其中
%67)
,…
*
8
是有限集合,表示记录该案例的说明性信息;
如案例
名、类型、事故发生时间及必要的说明信息等;
67+
+
是
非空有限集合,表示事故案例的特征信息;
’63,
…
是一个
有限集合,表示特征信息的原因分析结论;
(67-
-
有限集合,表示案例求解的启发信息,如使用方法、手段、模型、
推理路线等。
+$#用到的主要计算模型
+$#$%
模糊相似度优先比法
用相似优先比从典型案例库中找出与待处理的交通事故
的车型一样及天气、照明条件、路段类型、道路线形等条件相近
的一些典型的交通事故。
+$#$!
模糊关系方程
这些典型交通事故案例的数据及处理结果不能直接应用
到待处理的交通事故中,文章用模糊关系方程推测及相似案例
来推测待处理交通事故的数据及处理结果。
+$#$#
其它处理模型
395
汽车无制动碰撞人模型、汽车制动后撞人模型、汽车与汽
车正面碰撞无制动、根据玻璃碎片推算汽车碰撞速度等。
系统
使用了
#%
个计算模型。
结论
基于
.
的交通事故处理辅助决策与培训系统,可用于
现有交通事故处理的辅助决策,又可用于培训新的交通事故处
理人员。
(收稿日期:
年
月)
参考文献
%$涂序彦,杜军平等$面向“智体”的软件工程方法3<
5$软件世界,!
(4)
$史忠植$智能主体及其应用3;
5$北京:
科学出版社,!
#$张云勇$移动&
’()*及其应用3;
清华大学出版社,!
+$张鹏程,李人厚等$基于&
’()*的2=2>
多媒体交互环境的模型和实
现
3<
5$计算机科学,!
(#)
$乔兵,朱剑英$多&
’()*智能制造系统研究综述3<
5$南京航空航天大学
学报,
%;
##(%)
@$.A)’BAC,<
C)*D(E(($&
)D’()*FGDH(IJKDL(MNKOJNKLGACPIC)’I(QCF
HCN)HARRNK*HSH*(LH3<
5$T(QCHC
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 应用 研究 黄解军