数据挖掘实验报告.docx

资源ID：24095298 资源大小：619.11KB 全文页数：11页
资源格式： DOCX 下载积分：10金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

数据挖掘实验报告.docx

1、数据挖掘实验报告数据挖掘实验报告药物研究专业：学号：姓名：时间：2011.12.08一、实验目的1、学习数据挖掘的理论知识，理解数据挖掘的目的和意义；2、熟悉SPSS Clementine软件的功能，并学习使用该软件对数据进行分析；3、对该软件提供的数据DRUG1n进行分析，了解人体的血压、类胆固醇、Na、K等的含量对人体的健康状况的影响。二、实验环境系统环境：Windows XP软件环境：SPSS Clementine11.1软件简介：作为一个数据挖掘平台， Clementine结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。强大的数据挖掘功能和显著的投资

2、回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比， Clementine其功能强大的数据挖掘算法，使数据挖掘贯穿业务流程的始终，在缩短投资回报周期的同时极大提高了投资回报率。SPSS Clementine软件中提供的数据DRUG1n，一共有200条数据，包含7个字段分别是Age（年龄）、 Sex（性别）、 BP（血压）、 Cholesterol （类胆固醇含量）、Na （Na含量）、K（K含量）、 Drug（药品种类）。三、实验数据本实验所使用的数据是SPSS Clementine软件中提供的数据DRU

3、G1n，一共有200条数据，包含7个字段分别是Age（年龄）、 Sex（性别）、 BP（血压）、 Cholesterol （类胆固醇含量）、Na （Na含量）、K（K含量）、 Drug（药品种类）。四、实验步骤与分析过程本次实验，首先DRUG1n中的数据进行了一个简单的分析和解释，比如说Drug（药品）的分布情况、Na和K的含量等的分析。接着决策树分析的方法对数据进行分类和分析。本实验所建立的数据流如图1所示，图1 具体的分析步骤如下：第一部分：新建工作流，附加数据1、打开软件，新建一个流，命名“Drug分析”。从数据源中选择“可变文件”拖入工作框，双击附加添加。如图2。图2第二部分：步骤1

4、-4所示对Drug 1n的数据进行一个简单探索，了解数据的组成规律。步骤5、6所示，对字段进行选择重新分析Na和K的浓度.步骤7-11，先对数据进行过滤后执行C5.0分析。图31、浏览数据内容。在输出选项中选择“表格”节点加到数据流中，执行该节点，如图3中的1-1步骤，所生成的数据表名将列在流管理窗口的输出选项中，结果如图4所示。图42、观察各个变量的数据分布特征。在输出选项卡中选择“数据审核”节点添加到数据流中，执行该节点，如图3中的1-2步骤，所生成的数据如图5所示。图5可以看到，该数据有200个样本，7个字段。对Age、Na、K这三个数值型变量，计算且输出最小值、最大值、均值、标准值、偏

5、系数等基本描述统计量。数据显示，病人的年龄差距比较大。3、不同血压特征病人的药物选择。在“图形”选项卡中选择“网络”节点加到数据流中，设置节点参数指定绘制关于Drug和BP的网状图，执行该节点，如图3中1-3步骤，所生成的图形如图6所示。图64、观察服用不同药物的病人唾液中钾钠的含量情况。在“图形”选项卡中选择“图形”节点加到数据流中，设置节点参数，指定Na为X轴，K为Y轴，服用不同的Drug的病人采用不同颜色的点，执行该节点，执行该节点，如图3中1-4步骤，所生成的图形如图7所示。图75、观察服用不同药物病人唾液中钠钾的浓度比例情况。为了更准确地评价药物状况单纯的。在“字段”选项卡中选择“导

6、出”节点加到数据流中，设置节点参数，指定Na为X轴，K为Y轴，服用不同的Drug的病人采用不同颜色的点，执行该节点，执行该节点，如图3中5步骤。 6、从导出的新字段中，选择“图形”中的“直方图”选项卡，设置节点参数绘制Na/K的直方图，且服用不同药物的病人采用不同的颜色。执行该节点，如图3的步骤6，所生成的图形如图8所示。图87、全面分析决定药物所选择的其他影响因素。通过前面的分析，似乎对选择DrugY的依据有了一定的结论，但是没有考虑Age、Sex、BP、Cholesterol、Na/K的综合角度分析选择不同的药物依据。首先，在建模中将不再直接采用Na和K的变量，而是采用Na/K，因此应先将

7、变量K和Na删掉。在“字段”中选择“类型”节点加到数据流中，如图3中的步骤7，如图9所示。图98、然后，指定建立模型过程中各个变量的作用，这里的Age、Sex、BP、Cholesterol、Na/K为解释变量，称为模型的输入变量，Drug为被解释变量，称为模型的输出变量，在“字段”选项卡中选择“类型”节点加到数据流中，设置参数指定不同变量的作用角色，如图3中步骤8，如图10所示。9、最后，在“模型”选项卡选择C5.0节点加到数据流中。选择C5.0模型，执行C5.0节点，如图1-3中步骤9所示，生成的模型名将列在流管理窗口的模型选项卡，右击鼠标，选择弹出菜单中的“浏览”选项，浏览结果，如图10所

8、示。图10可以看出，当病人的Na/K值高于14.642时，应选择DrugY，无需考虑其他因素。当病人的Na/K值低于14.642时，对于高血压病人，年龄是主要的判断依据，年龄低于50岁时，更适合选用DrugA，高于50岁的则应选择DrugB；对于低血病人，则应依据其胆固醇指标选择DrugX和DrugC。对于血压正常的病人可选择DrugX。性别对选择药物没有影响。10、模型的预测精度评价。首先，选择流管理窗口中的模型选项卡，右击鼠标，选择弹出的菜单中的增加评价选项，将模型算结果增加到数据流中，如图3中的步骤10；然后，在输出选项卡中选择分析节点并与模型结果节点相连，执行分析节点，如图3中的步骤1

9、1，所生成的结果如图11所示。五、实验总结在本次实验中，从新建工作流一直到获得最终结果，整个流程让我对数据挖掘中数据分析处理的基本方法有了深入的了解，特别是C5.0模型应用的理解，同时，也学会了如何使用 Clementine 通过建模（使用 GRI）和直观化（使用 Web 显示）发现数据库中的关系（即链接）以及利用这些链接与数据中的案例组相对应关系可以通过建模（使用 C5.0 规则集）可详细研究这些组并描绘其特征，增强了运用Clementine11.1的能力。通过这次学习让我意识到，对于数据我们不仅要能会用spss统计来分析它的规律，也要能会通过数据挖掘软件来挖掘数据当中的潜在信息，更好的数据使用者。

注意事项

本文（数据挖掘实验报告.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。