毕业设计开题报告.docx
- 文档编号:25067761
- 上传时间:2023-06-04
- 格式:DOCX
- 页数:10
- 大小:369.43KB
毕业设计开题报告.docx
《毕业设计开题报告.docx》由会员分享,可在线阅读,更多相关《毕业设计开题报告.docx(10页珍藏版)》请在冰豆网上搜索。
毕业设计开题报告
毕业设计(论文)开题报告
计算机科学与工程学院
计算机科学与技术专业
设计(论文)题目基于ID3决策树的数据分析
学生姓名学号
指导教师
顾问教师
教研室主任
教学院长(教学系主任)
2014年3月19日
论文题目
基于ID3决策树的数据分析
一、选题背景和意义:
近年来,信息社会中丰富的数据带来了对强有力的数据分析工具的需求,快速增长的海量数据集存放在大型的数据库中,激增的数据背后隐藏着许多重要的信息,而目前的数据库技术虽然可以高效地实现数据的查询、统计等功能,但却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。
以至于出现了“数据丰富,但信息贫乏”的现象。
在这种需求下,数据挖掘技术应运而生。
数据挖掘就是从数据库中挖掘出数据间潜在的模式,再根据这些模式找出相应的规律。
它是解决信息技术在发展中一方面拥有大量数据而另一方面有用信息却很贫乏这种不正常现象的综合解决方案。
数据挖掘技术通过使用计算机来对数据库中大量数据进行快速、有效的分析和处理,从中提取有用信息和知识,并以一种形式化、可以理解的方式表达,以便用于决策。
目前对数据挖掘的研究主要集中在关联规则挖掘、聚类、分类、序列模式发现、异常和趋势发现等方面,也就是说数据挖掘可以产生五种基本类型的信息:
关联信息、聚类信息、分类信息、偏差信息、预测信息。
其中由于分类挖掘在商业等领域中的广泛应用使它成为数据挖掘中最活跃的研究方向。
分类的目的是提出一个分类函数或分类模型(分类器),该模型能把数据库中的数据映射到给定类别中的某一个。
由于分类技术能够对各个行业提供良好的决策支持,在这些不同的行业有着多种不同领域方法的分类算法,例如决策树方法、神经网络方法、统计学方法等。
在这些算法中,决策树方法最容易理解,应用领域也特别广泛。
决策树学习是一种逼近离散值目标函数的方法,这种方法将从一组训练数据中学习到的函数表示为一棵决策树,它是一种常用于预测模型的算法,通过将大量数据有目的的分类,从中找到一些具有价值的、潜在的信息。
决策树方法以其速度快、精度高、生成的模式简单等优点,在数据挖掘中受到许多研究者和软件公司的关注。
而分类技术对整个市场的控制、公司的运营和个人的投资都有着良好的决策辅助作用,所以基于决策树分类算法的研究有着很高的应用价值。
一般情况下,决策树分类器具有良好的准确率。
决策树归纳算法已经成功地应用于许多应用领域的分类,如医疗诊断、天气预报、金融分析,顾客分类、身份识别等。
二、课题关键问题及难点:
1.连续属性值问题
由于ID3算法是根据离散属性值来计算各个属性的信息熵,所以在处理属性取值为连续值的属性时,往往需要将连续属性做离散化处理,即通过将属性值的定义域划分为非重叠区域,来处理具有连续属性值的样本数据。
最常见的划分方法为等宽间距法和等频区间法。
假设实例集S中连续属性A的最大值和最小值分别为MAX和MIN。
等宽区间法就是将这一连续区间[MIN,MAX]分为N个小区间,每个区间内包含的样本实例大致相同。
虽然等分法容易实现,但是它忽略了样本集中的概念类等关键信息,因此,有时候并不能产生合理的划分区间。
在处理连续属性的问题上,C4.5算法采用的离散化方法是:
对所有样本在该属性上的取值从小到大进行排序,找出最小值MIN和最大值MAX;选择取值相邻但所属类别不同的两个样本为一组,共N组,计算其算术平均值Ai,其中i=1,2,…N;分别计算把[MIN,Ai]和(Ai,MAX](i=1,2,…N)作为属性划分区间时的信息增益并进行比较;选择信息增益值最大的Ai作为对该属性离散化的断点,即将属性按照区间[MIN,Ai]和(Ai,MAX]进行划分。
2.属性值空缺的问题
在我们所搜集得到的数据集中经常出现部分样本的个别缺失的情况,这种情况会对ID3算法造成一定的干扰,但是只要属性缺失的样本没有超过一定比例,在原有样本集上进行划分依然是可能的。
解决属性缺失问题最常见的方法是用最可能的值对缺失的值进行填充,但有时这种方法不够精确。
C4.5算法采用了基于概率分布的填充法来为未知属性的每个可能值赋予一个概率,而不是简单的赋予最常见的值。
这个概率的分配是基于未知属性的概率分布与已有属性样本具有相同的概率分配。
例如,给定一个布尔属性A,如果结点n包含7个已知A=1和3个A=0的样例,那么A=1的概率是0.7,A=0的概率是0.3.于是实例X的70%被分配到A=1的分支,30%被分配打破A=0的分支。
另外,如果有第二个缺少值的属性必须被测试,这些片段样例可以再后继的分支中被进一步细分。
该策略也可以用在分类缺省属性的新实例中。
在这种情况下,该实例的分类就是最可能的分类。
计算的方法是根据属性取不同的值出现的概率,通过在树的叶子结点按不同方式分类的实例片段的权重求和。
注:
开题报告可单独装订,但在院(系)范围内,封面和装订格式必须统一。
三、文献综述(或调研报告):
目前决策树分类技术已经得到数据挖掘研究者和软件开发人员的极大关注,国内外很多软件公司都相继推出了自己得数据挖掘系统。
SGI,SAS等公司在已推出的数据挖掘系统中,首选的方法就是决策树方法。
SAS公司的SASEnterpriseMiner,是一种通用的数据挖掘工具,通过收集分析各种统计资料和客户购买模式,帮助客户发现业务的趋势,解释已知事实并预测未来结果,完成任务所需的关键因素,最终实现增加收入并降低成本的目的。
IBM公司的IntelligenceMiner,具有典型数据集自动生成、并联发现、序列规律发现、概念性分类和可视化显示等功能,可以自动实现数据选择、数据转换、数据挖掘和结果显示,必要时重复这一过程。
中科院计算机研究所智能信息处理重点实验室开发的MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。
Angoss公司的KnowledgeSEEKER是一个基于决策树的数据分析程序,具有相当完整的决策树分类分析功能。
RightPoint公司的DataCruncher是一种客户/服务器方式的数据挖掘引擎,具有分析数据仓库中海量数据的能力,能与当今的许多主流关系数据库和数据挖掘辅助工具直接进行连接,辅助建立面向营销的数据挖掘研究的模型。
还有美国ThinkingMachine公司的Darwin,SilicomGraphic公司的Mineset,VanguardSoftware公司的DecisionPro3.0,LitigationRiskAnalysis公司的LitigationRiskAnalysis等。
决策树分类学习算法是使用最广泛、并且是非常实用的归纳推理方法之一,在机器学习、数据挖掘、智能控制等人工智能领域有着相当重要的理论意义与使用价值,它已经被成功地应用到从学习医疗诊断到学习评估贷款申请的信用风险的广泛领域。
决策树学习是以示例学习为基础的归纳学习方法,它起源于概念学习系统CLS(ConceptLearningSystem)。
最有影响力的ID3算法是决策树归纳的代表,由Quinlan首次提出。
他引进信息论中的互信息(信息增益)作为单一属性特征判断力的度量,并且将建树的方法嵌在一个迭代的外壳之中。
ID3算法以信息熵作为目标评价函数,采用自顶向下不可返回的策略,搜索全部空间的一部分,它确保建立最简单的决策树,每次所做的测试数据也最少。
然后它试图减少树的平均深度时却忽略了叶子数目的研究,其启发式函数并不是最优的。
自ID3出现以后,研究人员围绕算法展开了大量的研究,提出许多富有成效的改进优化算法。
其工作主要集中在如下几个方面:
(1)扩充决策树属性的取值范围及改进测试属性的选择;
(2)提高决策树的构造效率,消减数据库的遍历次数,减少输入输出操作;
(3)优化决策树,简化决策树输出;
(4)扩充决策树,形成决策图;
(5)将遗传算法、神经网络、粗糙集等知识引入决策树算法。
Quinlan在1992年又提出了另一种分类算法C4.5,该算法可以看作是ID3
算法的一个扩展,它有效得解决了ID3算法不能处理连续属性值和属性缺省的情况。
针对特征属性的选择问题,国内以刘小虎等学者为代表,他们在选择一个新属性时并不仅仅计算该属性引起的信息增益。
洪家荣等学者在分支属性的选择上仍采用基于信息增益率的方法,但在树的扩展过程中采用属性聚类的方法减少树的分支。
另外钟鸣、陈文伟等为克服训练例子中正反例的比例对互信息的影响,提出了基于信道容量IBLE算法。
该算法每次分支时同时选一组重要属性作为决策树的节点,结果预测高于ID3算法。
我们提到的机器学习方法往往需要把训练数据放入内存,这只适用于较小规模的数据,在大型数据库中往往性能不佳,IBM的Mehta等在1996年提出的SLIQ,它在构造决策树的过程中,采用了“预排序”和“广度优选”技术,在一般决策树中,使用信息增益作为评价节点分裂质量的参数,而SLIO算法使用Gini_index代替信息增益。
它能训练数据对内存的需求减少到一个较小的比例,能同时处理分类属性和数值型属性。
JohannesGehrke等人于1999年提出RainForrest算法,它是一种可用于构建可伸缩快速决策树的框架。
上述各种算法都分为建树和修剪两个阶段,修建阶段是在决策树建立后开始的,这样在决策树的修建过程中可能会删除树中许多耗费大量时间而建立起来的结点。
对此,Rastogi等人提出了一种将建树和树的修剪集成在一起的PUBLIC算法。
其思想是在决策树建立阶段,计算每个节点相关的目标函数值,估计该节点在将来调整结点是否被删除。
如果该节点删除,则不对该节点进行扩展,否则,扩展该节点。
PUBLIC算法由于不需要对即将删除的节点进行扩展,减少了大量I/O操作,节省运行空间,提高决策树的构造效率。
另外,也有学者另辟蹊径,将粗糙集方法和神经网络方法应用到决策树分类上。
赵卫东等人将粗糙集理论应用决策树的构造过程,提出了一种利用粗糙集理论和决策树进行优化的算法;苗夺谦等人用相对泛化的概念构造多变量检验,提出一种评价多变量检测的准则。
神经网络是目前公认的高精度分类器,张朝辉等人提出了利用神经网络学习发现分类规则的方法。
周志华等人提出了一种构造性混和决策树学习方法CHDT,该方法用于符号学习来进行定性分析,用神经网络学习进行后续的定量分析,在一定程度上模拟了人类的思维过程。
参考文献:
[1]QuinlanJR.Inductionofdecisiontrees.MachineLearning,1986,1
(1):
81-106.
[2]BuntineW,NiblettT.Afurthercomparisonofsplittingrulesfordecision-treeinduction.MachineLearning,1992,8:
75-86.
[3]DietterichTG,HildH,BakiriG.AcomparisonofID3andBackpropagationforEnglishtext-to-speechmapping.MachineLearning,1995,18
(1):
51-80.
[4]FayyadUM,IraniKB.Onthehandlingofcontinuous-valuedattributesindecisiontreegeneration.MachineLearning,1992,8:
87-102.
[5]MingersJ.Anempiricalcomparisonofselectionmeasuresfordecision-treeinduction.MachineLearning,1989,3(4):
319-342.
四、方案(设计方案、或研究方案、研制方案)论证:
1.数据分类:
一般分为两个步骤:
第一步,建立一个数据类概念模型。
通过分析有属性描述的数据库元组
构造模型。
假定每个元组属于一个预定义的类,其类别值由一个特定的属性描述。
对于分类,数据元组也成为样本、实例或对象。
为建立模型而被分析的数据元组形成训练数据集。
训练数据集中的单个元组称作训练样本,并随机地由样本群选取。
由于提供了每个训练样本的类标号,因此模型的学习在被告知每个训练样本属于哪个类的“指导”下进行的。
建立数据库类概念模型的过程如图4-1所示。
图4-1数据分类模型的建立
通常,分类模型学习的结果用分类规则、决策树或数学公式的形式提供。
例如,给定一个顾客信用信息的数据库,可以学习分类规则,根据他们的信誉度优劣来识别顾客。
该规则可以用来为以后的数据库样本分类,也能对数据库的内容提供更好的历届。
第二步,利用学习得到的模型对待分类数据集进行分类。
在将分类模型投入正式使用之前,首先应该评估模型的预测准确率。
应该选取完全独立于训练数据集的专门数据集作为测试数据集。
模型在给定测试机上的正确率是正确被模型分类的测试样本的百分比。
对于每个测试样本,将已知的类标号与该样本的学习模型类型预测比较。
利用分类模型对待分类数据及进行分类的过程如4-2所示:
图4-2分类模型对待分类数据集的分类
一般在生成决策树之前需要对待分类的数据做必要的处理,将这个过程称为分类的预处理过程。
通过对待分类数据的预处理过程,可以提高分类和预测的准确性、有效性和可规模性。
2.决策树的生成
基本的决策树算法是一个贪心算法,现有的已开发的决策树学习算法都
是这种核心算法的变体,该算法采用自上而下、分而治之的递归方式搜索遍历可能的决策树空间。
这种方法是ID3算法和后继的C4.5算法的基础。
利用决策树对数据进行分类和预测遵循两大步骤,如图4-3所示:
首先对训练数据进行学习,建构一个决策树,即决策树的归纳:
然后对于每个具体测试样本,利用生成的决策树提取的分类规则,确定样本的类别。
按照决策树对数据分类的步骤,我们可以看出它隐含的定义了一个映衬。
这个映射所需要的过程就是决策树的数据判别从根到叶子节点的流程。
当然不同的决策树算法所形成的决策树是不同的,因此对同一数据集的分类结果也不同。
图4-3决策树工作原理流程图
3.ID3算法描述
ID3算法的建树过程符合决策树算法的步骤,在ID3算法的每一个循环过程中,都对训练集进行查询以确定属性的信息增益,然而此时的工作只是查询样本的子集而没有对其分类。
为了避免访问全部数据集,ID3算法才用了称为窗口的方法,窗口随机性是从数据集中选择一个子集。
采用该方法会大大加快构建决策树的速度。
ID3算法的主算法比较简单,首先从训练集中随机选择一个窗口(既含正例又含反例的样本子集),用建树算法对当前窗口形成一颗决策树;其次,对训练集(窗口除外)中例子用所得到的决策树进行类别判定,找出错判的例子。
若存在错判的例子把它们插入到窗口,转到建树过程,否则停止。
其流程图如下:
图4-4ID3主算法流程图
其中PE,NE分别表正例集和反例集,它们共同组成训练样本集。
PE’,PE”和NE’,NE”分别代表正例集合反例集的子集。
算法没迭代循环一次,生成的决策树将会不同。
五、进度安排:
起止日期
工作内容
备注
2014年1月~2014年2月
收集相关资料,了解论文设计的研究背景,熟悉ID3算法,为算法的具体实现做准备。
2014年3月~2014年4月
用任一高级程序设计语言完成ID3算法的实现,并在若干数据集上进行实验测试,为毕业论文的撰写做准备。
2014年5月
撰写毕业论文并完成修改,为论文答辩做相关准备
2014年6月
论文答辩
六、指导教师意见:
签名:
年月日
七、开题审查小组意见:
签名:
年月日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 开题 报告
![提示](https://static.bdocx.com/images/bang_tan.gif)