数据挖掘实验报告决策树和聚类分析.docx
- 文档编号:12006410
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:16
- 大小:648.59KB
数据挖掘实验报告决策树和聚类分析.docx
《数据挖掘实验报告决策树和聚类分析.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告决策树和聚类分析.docx(16页珍藏版)》请在冰豆网上搜索。
数据挖掘实验报告决策树和聚类分析
使用样例数据库——食品销售公司数据库,里面包含17张维表,11张事实表,具体信息如下:
维表
account:
账目表
category:
类别表
currency:
货币表
customer:
客户表
days-check:
星期表
department:
部门表
employee:
员工表
position:
工厂位置
product:
商品信息
product_class:
商品类别
promotion:
广告
region:
区域
reserve_employee:
储备干部表
store:
分店表
time_by_day:
时间表
warehouse:
仓库表
warehouse:
仓库类表
事实表
expense_fact:
支出表
inventory_fact_1997:
1997年库存情况
inventory_fact_1998:
1998年库存情况
monthly_rates:
每月库存出货比例
PCTOwnershipfact
rates:
出货库存比例
salary:
薪水表
sales_fact_1997:
1997销售表
sales_fact_1998:
1998销售表
sales_fact_dec_199:
1998.12销售表
warehouse_inventory:
仓库存货表
使用SQLServerBusinessIntelligenceDevelopmentStudio对上述数据建立数据立方体,并进行数据挖掘分析,挖掘的知识类型不限,将挖掘过程和结果形成实验报告。
【实验内容】
(1)利用给定的数据库,新建一个数据挖掘项目;
(2)依次建立数据源,数据源视图,维度,多维度数据集,挖掘机构;
(3)选择不同的算法对挖掘的结果进行分析,预测.
(4)根据以上分析,提出可以执行的决策
【实验步骤】
(1)新建一个数据源,我们使用给定的食品加工数据库。
(2)根据数据源,建立数据源视图;
数据库中各个表的关系如下(部分截图):
(3)新建维度,选择time_by_day
(4)新建多维数据集
之后数据源视图如下(部分):
(5)建立数据挖掘结构,选择使用了Microsoft决策树析
其中customer表作为事例。
选择预测年收入
测试数据百分比选择为默认的30%
得到如下决策树
年收入依赖的数据关系为
通过分析例如当条件为:
“Education='HighSchoolDegree'andOccupation='Manual'andMemberCard不等于'Normal'”时年收入分布如下
当条件为:
“Education='BachelorsDegree'andMemberCard='Normal'andNumCarsOwned=0”时年收入分布如下
当选择预测值为$30k--$50k时提升图为:
拟合分数为0.97拟合较好
分类矩阵如下:
从图中可以看出$10k--$30预测准确率最高
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验 报告 决策树 聚类分析