原《数据挖掘》习题doc.docx
- 文档编号:7361134
- 上传时间:2023-01-23
- 格式:DOCX
- 页数:17
- 大小:26.04KB
原《数据挖掘》习题doc.docx
《原《数据挖掘》习题doc.docx》由会员分享,可在线阅读,更多相关《原《数据挖掘》习题doc.docx(17页珍藏版)》请在冰豆网上搜索。
原《数据挖掘》习题doc
chi
1.讨论下列每项活动是否是数据挖掘任务:
(fgh是)
(a)根据性别划分公司的顾客。
(b)根据可赢利性划分公司的顾客。
(c)计算公司的总销售额。
(d)按学生的标识号对学生数据库排序。
(e)预测掷一对骰子的结果。
(f)使用历史记录预测某公司未来的股票价格。
(g)监视病人心率的异常变化。
(h)监视地震活动的地震波。
⑴提取声波的频率。
2.(chi)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。
3.(chi)数据挖掘一定可以得到有趣的强关联规则。
4.(chi)为了提高挖掘质量,通常要进行数据预处理,包括数据清理、集成、选择、变换等。
5.(ch5){发烧,上呼吸道感染}是
(2)项集
6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是(B)o
A数据越多越好
B尽可能多的适合的数据
C数据越少越好
D以上三条都正确
7.数据挖掘算法以(D)形式来组织数据。
A行B列C记录D表格
Ch2
8.(ch2)
假定用于分析的数据包含属性age。
数据元组中age的值如
下(按递增序):
13,15,16,16,19,20,20,21,22,
22,25,25,25,25,30,33,33,35,35,35,35,36,
40,45,46,52,70,求:
1)使用按箱平均值平滑对以上数据进行平滑,箱的深
度是3。
解释你的步骤。
2)使用按箱边界值平滑对以上数据进行平滑,箱的深
度是3。
解释你的步骤。
7、P983.4(ch3)
假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade0在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。
为数据仓库画出雪花模式图
8、P983.5(ch3)
假定数据仓库包含4个维date,spectator,location和game,2个度量count和chargeo其中,change是观众在给定的日期观看节目的付费。
观众可以是学生、成年人或老人,每类观众有不同的收费标准。
画出该数据仓库的星形模式图
10、(ch5)
数据库有4个事物。
设min_s叩=60%,min_conf=80%
TID
日期
购买的物品
T100
99/10/15
{K,A,D,B}
T200
99/10/15
{D,A,C,E,B}
T300
99/10/19
{C,A,B,E}
T400
99/10/22
{B,A,D}
a)使用Apriori算法找出最大得频繁项集
b)列出所有强关联规则(带支持度s和置信度c)
11.(参P229)
假定希望分析爱喝咖啡和爱喝茶得人之间得关系。
收集一组
人关于饮料偏爱的信息,汇总如下:
咖啡
不喝咖
啡
汇总
茶
150
50
200
不喝茶
650
150
800
汇总
800
200
1000
若支持度和置信度阈值分别为10%,50%,评估关联规则
{茶}——>{咖啡}。
(负相关)
12.(ch5,参P224)
有如下事务数据集。
试挖掘频繁项集。
(最小支持度为2)
TID
项
1
(a,b}
2
(bed}
3
{acde}
4
(ade}
5
(abc}
6
(abed}
7
{a}
8
(abc}
9
(abd}
10
(bee}
结果:
后缀
频繁项集
e
{e},(de},(ade},(ce},(ae}
d
{d},(cd},(bed},(acd},(bd},(abd},(ad}
c
{c},(be},{abc}(ac}
b
(b}(ab}
a
{a}
13.(ch5,参P256,17)
假定有一个购物篮数据集,包含100个事务和20个项。
如果项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%o令最小支持度阈值和最小置信度阈值分别为10%和60%。
1)计算关联{a}——>{b}的置信度。
根据置信度度量,这条规则是有趣的么?
(这条规则是否是强关联规则?
)(80%,是)
2){a}——>{b}是否有趣?
(负相关,无趣)
11.求出下表的强关联规则(ch5)
ID
Pl
P2
P3
P4
1
bread
cheese
butter
water
2
water
milk
bread
noodle
3
orange
noodle
meat
beer
4
fish
softdrink
frozenmeal
bread
12、(ch6)
下表给出某门课程若干学生期中和期末考试成绩
期中725081749486598365338881
期末846377789075497977527490
绘数据图。
X和Y看上去具有线性联系吗?
13.(ch6)
下表是对是否购买计算机的调查表,请根据ID3算法画出
是否购买计算机的决策树。
计
数
年龄
收
入
学生
/\.、、人
信誉
归类:
买
计算
机?
64
青
高
否
良
不买
64
青
高
否
优
不买
128
中
高
否
良
买
60
老
中
否
良
买
64
老
低
是
良
买
64
老
低
是
优
不买
64
中
低
是
优
买
128
青
中
否
良
不买
64
青
低
是
良
买
132
老
中
是
良
买
64
青
中
是
优
买
32
中
中
否
优
买
32
中
高
是
良
买
63
老
中
否
优
不买
1
老
中
否
优
买
14.预测拖欠银行贷款的贷款者(参P94)
TID
有房
婚姻状
况
年收入
拖欠贷
款
1
是
单身
125K
否
2
否
已婚
100K
否
3
否
单身
70K
否
4
是
已婚
120K
否
5
否
离异
95K
是
6
否
已婚
60K
否
7
是
离异
220K
否
8
否
单身
85K
是
9
否
已婚
75K
否
10
否
单身
90K
是
一客户信息如下:
X=(有房二否,婚姻状况二已婚,年收入
=120K)
用贝叶斯分类法,预测记录的拖欠贷款类别。
(否)
可能的分裂
年收入
点
60
65
0.82647
70
72.5
0.76355
75
80
0.68966
85
87.5
0.87549
90
92.5
0.84644
95
97.5
0.5
100
110
0.68966
120
122.5
0.76355
125
172.5
0.82647
220
原数据集合修正为:
TID
有房
婚姻
状况
年收入
拖欠
贷款
1
是
单身
125K(>97.5)
否
2
否
已婚
100K(>97.5)
否
3
否
单身
70K(<=97.5)
否
4
是
已婚
120K(>97.5)
否
5
否
离异
95K(v=97.5)
是
6
否
已婚
60K(<=97.5)
否
7
是
离异
220K(>97.5)
否
8
否
单身
85K(<=97.5)
是
9
否
已婚
75K(<=97.5)
否
10
否
单身
90K(<=97.5)
是
P(是)=0.3p(否)=0.7
M是ix)=〃(xi是),(是)〃(否ix)顼xi否),(否)
P(x)P(X)
p(XI是)=p(有房=否|是)p(婚姻状况=已婚I是)p(年收入=1201是)=100%*0*0=0
〃01是)=〃(有房=否1否)〃(婚姻状况=已婚I否)p(年收入=1201否)=4/7*4/7*4/7=18.66%
所以,他可能不拖欠贷款
最佳分裂点:
97.5
15.(CH6,参P122)
考虑如下二元分类问题的训练样本:
顾客ID
性别
车型
衬衣尺
码
类
1
男
家用
小
C0
2
男
运动
中
CO
3
男
运动
中
C0
4
男
运动
大
CO
5
男
运动
加大
co
6
男
运动
加大
co
7
女
运动
小
co
8
女
运动
小
co
9
女
运动
中
co
10
女
豪华
大
co
11
男
家用
大
Cl
12
男
家用
加大
Cl
13
男
家用
中
Cl
14
男
豪华
加大
Cl
15
女
豪华
小
Cl
16
女
豪华
小
Cl
17
女
豪华
中
Cl
18
女
豪华
中
Cl
19
女
豪华
中
Cl
20
女
豪华
大
Cl
1)计算整个训练样本集得GINI指标(0.5)
2)计算属性顾客ID的GINI指标(0)
3)计算属性性别的GINI指标(0.5)
4)那个属性更好?
性别、车型还是衬衣尺码?
(车型,因
为其GINI指标最低)
16.(CH6,参P122)
考虑如下二元分类问题的训练样本:
实例
标号
al
a2
a3
目标
类
1
T
T
1
+
2
T
T
6
+
3
T
F
5
—
4
F
F
4
+
5
F
T
7
-
6
F
T
3
-
7
F
F
8
-
8
T
F
7
+
9
F
T
5
-
1)整个训练样本集关于类属性得炳是多少?
(0.9911)
2)关于这些训练样本,al和a2的信息增益是多少?
(0.2294,
0.0072)
3)对于连续属性a3,计算所有可能的划分的信息增益
Q9
Classlabel
Splitpoint
Entropy
InfoGain
1.0
+
2.0
0.8484
0.1427
3.0
-
3.5
0.9885
0.0026
4.0
+
4.5
0.9183
0.0728
5.0
5.0
-
5.5
0.9839
0.0072
6.0
+
6.5
0.9728
0.0183
7.0
7.0
+
7.5
0.8889
0.1022
2.0是最佳分裂点。
4)根据信息增益,那个是最佳划分?
(在al,a2,a3中)(al)
5)WGINI指标,那个是最佳划分?
(在al,a2,a3中)(al)
17.考虑如下二元分类问题得数据集(CH6,参P123)
A
B
类标号
T
F
+
T
T
+
T
T
+
T
F
-
T
T
+
F
F
+
F
F
+
F
F
+
T
T
+
T
F
+
1)计算按照属性A、B划分时得信息增益。
决策树归纳算法
将会选择那个属性?
(GA=0.2813.GB=0.2565A)
2)计算按照属性A、B划分时的GINI指标。
决策树归纳算
法将会选择那个属性?
(不纯度降低:
0.1371,0.1633,(B)
18.已知下表:
(CH6,参P124)
A
B
C
实例数
+
—
T
T
T
5
0
F
T
T
0
20
T
F
T
20
0
F
F
T
0
5
T
T
F
0
0
F
T
F
25
0
T
F
F
0
0
F
F
F
0
25
试建立一颗两层的决策树
19.(CH6,参,P139)贝叶斯分类
考虑两队之间的足球比赛:
对0和1.假设65%的比赛队0胜出,剩余得比赛队1获胜。
队0获胜得比赛中只有30%是在队1的主场,而对1取胜的比赛中75%是主场获胜。
如果下一场比赛在队1的主场进行,哪一支球队最有可能胜出呢?
(队1)
x:
东道主(0,1)y:
胜利者(0,1)
队0取胜得概率:
p(y=0)=0.65
队1取胜得概率:
p(y=l)=0.35
对1取胜的比赛中75%是主场获胜:
队1获胜时作为东道
主的概率:
p(x=lly=l)=0.75
队0获胜得比赛中只有30%是在队1的主场:
即队0取胜
时队1作为东道主得概率:
P(x=lly=0)=0.3
比较P(y=l|x=l)和P(y=Olx=l)
p(x=l|y=l)p(y=l)0.75x0.350.2625
p(y=11x=1)===
p(x=1)P(X=1)P(X=1)
/nIP(x=11J7=0)p(y=0)0.3x0.650.195
p(y=U11=1)===
p(x=1)p(x=1)p(x=1)
P(y=llx=l)>P(y=0lx=l)所以,队1可能取胜。
20.(ch6,参P195,8)
考虑下列数据集:
实例
A
B
C
类
1
0
0
1
-
2
1
0
1
+
3
0
1
0
-
4
1
0
0
-
5
1
0
1
+
6
0
0
1
+
7
1
1
0
-
8
0
0
0
-
9
0
1
0
+
10
1
1
1
+
1)估计条件概率P(A=1I+),P(B=1I+),P(C=1I+),P(A=1I-),
P(B=1I-),P(C=1I-)
(0.6,0.4,0.8,0.4,0.4,0.2)
2)根据1)中的条件概率,使用朴素贝叶斯分类方法预测测
试样本(A=1,B=1,C=1)得类标号。
(+)
3)比较P(A=1),P(B=1)和P(A=1,B=1),陈述AB之间的关系。
(独立)
14、(ch7)
假设数据集D含有9个数据对象(用2维空间的点表示):
Al(3,2),A2(3,9),A3(8,6),Bl(9,5),B2(2,4),B3(3,10),Cl(2,6),
C2(9,6),C3(2,2)
采用k-均值方法进行聚类,距离函数采用欧几里德距离,取
k=3,假设初始的三个簇质心为A1,B1,和Cl,求:
(1)第一次循环结束时的三个簇的质心。
(2)最后求得的三个簇。
A2A3
B2
B3
C2
C3
A1
V49
V41
V5
V64V52VI
ClV10V36V4V17V49V16
第一次循环结束时:
(A1,C3)质心为(2.5,2)或(3,2)(B1,A3,C2),质心为:
(8.7,5.7)或(9,6)
(C1,A2,B2,B3),质心为:
(2.7,8.3)或
(3,8)
平方误差E=28
第二次循环
A1
A2
A3
B1
B2
B3
C1
C2
C3
3,2
0
V49
V41
V45
V
5
V64
V17
V52
1
9,6
V
52
V45
1
1
V
53
"65
"49
0
V65
3,7
V
V25
V26
V40
V
V9
V2
V37
V26
2510
第二次循环结束时:
(A1,B2,C3)质心为(2.3,2.7)或(2,3)
(A3,B1,C2),质心为:
(8.7,5.7)或(9,6)
(A2,B3,C1),质心为:
(2.5,7.25)或
(3,7)
平方误差E=21
第三次循环
AlA2A3BlB2B3ClC2C3
2,3
V2
V37
V45
V53
V
1
V50
V9
V58
1
9,6
V
52
V45
1
1
V
53
V65
V49
0
V65
3,7
V
25
V4
V26
V40
V
10
V9
V2
"37
V37
第三次循环结束时:
(A1,B2,C3)质心为(2.3,2.7)或(2,3)不变
(A3,B1,C2),质心为:
(8.7,5.7)或(9,6)不变
(A2,B3,C1),质心为:
(2.5,7.25)或
(3,7)不变
平方误差E=21不变
15.(ch7)
已知四个点的坐标如下:
占八、、
X坐标
Y坐标
P1
0
2
P2
2
0
P3
3
1
P4
5
1
其欧几里德距离矩阵:
P1
P2
P3
P4
P1
0
P2
2.8
0
P3
3.2
1.4
0
P4
5.1
3.2
2
0
试进行单链、全链聚类,并画出树形图。
答案:
单链:
Pl
P2,p3
P4
P1
0
P2,p3
2.8
0
P4
5.1
2
0
Pl
P2,p3,p4
Pl
0
P2,p3,p4
2.8
0
P2,p3P2,P3,P4p2,p2,p4,pl
全链:
第一步同单链
Pl
P2,p3
P4
Pl
0
P2,p3
3.2
0
P45.13.20
P2,p3P2,P3,P4p2,p2,p4,pl
或:
P2,p3P2,P3,P1p2,p2,pl,p4
16.请将下列属性分类:
(ch7)
1)用AM和PM表示的时间(序数变量)
2)按度测出得。
和360之间的角度(区间标度变量)
3)奥运会上授予得铜牌、银牌和金牌(序数)
4)学生的性别(二元)
5)用如下值表示得透光能力:
不透明、半透明、透明(序数)
6)外套寄存号码(当你出席一个活动时,你常常可以将你的外套交给某个人,然后他给你一个号码,你可以在离开时来取)(名义)
17.计算下表表示的混淆矩阵得隔和纯度
族
娱乐
财经
国外
都市
国内
体育
合计
#1
1
1
0
11
4
676
693
#2
27
89
333
827
253
33
1562
#3
326
465
8
105
16
29
949
合计
354
555
341
943
273
738
3204
iwmvVIBIVVIIIVVIVIIIIIWIIIHIVIbHVIVIVVb11
Cluster
Entertainment
Financial
Foreign
Metro
National
Sports
Total
Entropy
Purity
#1
1
1
0
11
4
676
693
0.20
0.98
#2
27
89
333
82?
253
33
1562
1.M
0.53
#3
326
465
8
105
16
29
W
1.70
0.49
Total
物
555
341
W
273
738
搠
144
0.61
18.已知四个点的相异度矩阵:
占八、、
Pl
P2
P3
P4
Pl
0
P2
0.2
0
P3
0.35
0.3
0
P4
0.45
0.4
0.1
0
试进行单链、全链聚类,并画出树形图。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 数据 挖掘 习题 doc