书签分享收藏举报版权申诉 / 17

立即下载加入VIP,免费下载

当前位置：首页 > 小学教育 > 语文 > 原《数据挖掘》习题doc.docx

原《数据挖掘》习题doc.docx

文档编号：7361134
上传时间：2023-01-23
格式：DOCX
页数：17
大小：26.04KB

原《数据挖掘》习题doc.docx

《原《数据挖掘》习题doc.docx》由会员分享，可在线阅读，更多相关《原《数据挖掘》习题doc.docx（17页珍藏版）》请在冰豆网上搜索。

原《数据挖掘》习题doc.docx

原《数据挖掘》习题doc

chi

1.讨论下列每项活动是否是数据挖掘任务：

（fgh是）

（a）根据性别划分公司的顾客。

（b）根据可赢利性划分公司的顾客。

（c）计算公司的总销售额。

（d）按学生的标识号对学生数据库排序。

（e）预测掷一对骰子的结果。

（f）使用历史记录预测某公司未来的股票价格。

（g）监视病人心率的异常变化。

（h）监视地震活动的地震波。

⑴提取声波的频率。

2.（chi）数据挖掘可以在很多数据源上进行，如关系数据库，空间数据库，多媒体数据库，文本数据库等。

3.（chi）数据挖掘一定可以得到有趣的强关联规则。

4.（chi）为了提高挖掘质量，通常要进行数据预处理，包括数据清理、集成、选择、变换等。

5.（ch5）｛发烧，上呼吸道感染｝是

（2）项集

6.企业要建立预测模型，需准备建模数据集，以下四条描述建模数据集正确的是（B）o

A数据越多越好

B尽可能多的适合的数据

C数据越少越好

D以上三条都正确

7.数据挖掘算法以（D）形式来组织数据。

A行B列C记录D表格

Ch2

8.（ch2）

假定用于分析的数据包含属性age。

数据元组中age的值如

下（按递增序）：

13,15,16,16,19,20,20,21,22,

22,25,25,25,25,30,33,33,35,35,35,35,36,

40,45,46,52,70,求：

1）使用按箱平均值平滑对以上数据进行平滑，箱的深

度是3。

解释你的步骤。

2）使用按箱边界值平滑对以上数据进行平滑，箱的深

度是3。

解释你的步骤。

7、P983.4（ch3）

假定大学的数据仓库包含4个维｛student学生、course课程、semester学期、instructor教师｝,2个度量count和avg_grade0在最低的概念层（例如对于给定的学生、课程、学期和教师组合），度量avg_grade存放学生的实际成绩。

为数据仓库画出雪花模式图

8、P983.5（ch3）

假定数据仓库包含4个维date,spectator,location和game,2个度量count和chargeo其中，change是观众在给定的日期观看节目的付费。

观众可以是学生、成年人或老人，每类观众有不同的收费标准。

画出该数据仓库的星形模式图

10、（ch5）

数据库有4个事物。

设min_s叩=60%,min_conf=80%

TID

日期

购买的物品

T100

99/10/15

{K,A,D,B}

T200

99/10/15

{D,A,C,E,B}

T300

99/10/19

{C,A,B,E}

T400

99/10/22

{B,A,D}

a）使用Apriori算法找出最大得频繁项集

b）列出所有强关联规则（带支持度s和置信度c）

11.（参P229）

假定希望分析爱喝咖啡和爱喝茶得人之间得关系。

收集一组

人关于饮料偏爱的信息，汇总如下：

咖啡

不喝咖

啡

汇总

茶

150

50

200

不喝茶

650

150

800

汇总

800

200

1000

若支持度和置信度阈值分别为10%，50%,评估关联规则

｛茶｝——>｛咖啡｝。

（负相关）

12.（ch5,参P224）

有如下事务数据集。

试挖掘频繁项集。

（最小支持度为2）

TID

项

1

（a,b}

2

（bed}

3

{acde}

4

（ade}

5

（abc}

6

（abed}

7

{a}

8

（abc}

9

（abd}

10

（bee}

结果:

后缀

频繁项集

e

{e},（de},（ade},（ce},（ae}

d

{d},（cd},（bed},（acd},（bd},（abd},（ad}

c

{c},（be},{abc}（ac}

b

（b}（ab}

a

{a}

13.（ch5,参P256,17）

假定有一个购物篮数据集，包含100个事务和20个项。

如果项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%o令最小支持度阈值和最小置信度阈值分别为10%和60%。

1）计算关联{a}——>{b}的置信度。

根据置信度度量，这条规则是有趣的么？

（这条规则是否是强关联规则？

）（80%,是）

2）{a}——>{b}是否有趣？

（负相关，无趣）

11.求出下表的强关联规则（ch5）

ID

Pl

P2

P3

P4

1

bread

cheese

butter

water

2

water

milk

bread

noodle

3

orange

noodle

meat

beer

4

fish

softdrink

frozenmeal

bread

12、（ch6）

下表给出某门课程若干学生期中和期末考试成绩

期中725081749486598365338881

期末846377789075497977527490

绘数据图。

X和Y看上去具有线性联系吗？

13.（ch6）

下表是对是否购买计算机的调查表，请根据ID3算法画出

是否购买计算机的决策树。

计

数

年龄

收

入

学生

/\.、、人

信誉

归类：

买

计算

机？

64

青

高

否

良

不买

64

青

高

否

优

不买

128

中

高

否

良

买

60

老

中

否

良

买

64

老

低

是

良

买

64

老

低

是

优

不买

64

中

低

是

优

买

128

青

中

否

良

不买

64

青

低

是

良

买

132

老

中

是

良

买

64

青

中

是

优

买

32

中

否

优

买

32

中

高

是

良

买

63

老

中

否

优

不买

1

老

中

否

优

买

14.预测拖欠银行贷款的贷款者（参P94）

TID

有房

婚姻状

况

年收入

拖欠贷

款

1

是

单身

125K

否

2

否

已婚

100K

否

3

否

单身

70K

否

4

是

已婚

120K

否

5

否

离异

95K

是

6

否

已婚

60K

否

7

是

离异

220K

否

8

否

单身

85K

是

9

否

已婚

75K

否

10

否

单身

90K

是

一客户信息如下：

X=（有房二否，婚姻状况二已婚，年收入

=120K）

用贝叶斯分类法，预测记录的拖欠贷款类别。

（否）

可能的分裂

年收入

点

60

65

0.82647

70

72.5

0.76355

75

80

0.68966

85

87.5

0.87549

90

92.5

0.84644

95

97.5

0.5

100

110

0.68966

120

122.5

0.76355

125

172.5

0.82647

220

原数据集合修正为:

TID

有房

婚姻

状况

年收入

拖欠

贷款

1

是

单身

125K（>97.5）

否

2

否

已婚

100K（>97.5）

否

3

否

单身

70K（<=97.5）

否

4

是

已婚

120K（>97.5）

否

5

否

离异

95K（v=97.5）

是

6

否

已婚

60K（<=97.5）

否

7

是

离异

220K（>97.5）

否

8

否

单身

85K（<=97.5）

是

9

否

已婚

75K（<=97.5）

否

10

否

单身

90K（<=97.5）

是

P（是）=0.3p（否）=0.7

M是ix）=〃（xi是），（是）〃（否ix）顼xi否），（否）

P（x）P（X）

p（XI是）=p（有房=否|是）p（婚姻状况=已婚I是）p（年收入=1201是）=100%*0*0=0

〃01是）=〃（有房=否1否）〃（婚姻状况=已婚I否）p（年收入=1201否）=4/7*4/7*4/7=18.66%

所以，他可能不拖欠贷款

最佳分裂点：

97.5

15.（CH6,参P122）

考虑如下二元分类问题的训练样本:

顾客ID

性别

车型

衬衣尺

码

类

1

男

家用

小

C0

2

男

运动

中

CO

3

男

运动

中

C0

4

男

运动

大

CO

5

男

运动

加大

co

6

男

运动

加大

co

7

女

运动

小

co

8

女

运动

小

co

9

女

运动

中

co

10

女

豪华

大

co

11

男

家用

大

Cl

12

男

家用

加大

Cl

13

男

家用

中

Cl

14

男

豪华

加大

Cl

15

女

豪华

小

Cl

16

女

豪华

小

Cl

17

女

豪华

中

Cl

18

女

豪华

中

Cl

19

女

豪华

中

Cl

20

女

豪华

大

Cl

1）计算整个训练样本集得GINI指标（0.5）

2）计算属性顾客ID的GINI指标（0）

3）计算属性性别的GINI指标（0.5）

4）那个属性更好？

性别、车型还是衬衣尺码？

（车型，因

为其GINI指标最低）

16.（CH6,参P122）

考虑如下二元分类问题的训练样本:

实例

标号

al

a2

a3

目标

类

1

T

1

+

2

T

6

+

3

T

F

5

—

4

F

4

+

5

F

T

7

-

6

F

T

3

-

7

F

8

-

8

T

F

7

+

9

F

T

5

-

1）整个训练样本集关于类属性得炳是多少？

（0.9911）

2）关于这些训练样本,al和a2的信息增益是多少？

（0.2294,

0.0072）

3）对于连续属性a3,计算所有可能的划分的信息增益

Q9

Classlabel

Splitpoint

Entropy

InfoGain

1.0

+

2.0

0.8484

0.1427

3.0

-

3.5

0.9885

0.0026

4.0

+

4.5

0.9183

0.0728

5.0

-

5.5

0.9839

0.0072

6.0

+

6.5

0.9728

0.0183

7.0

+

7.5

0.8889

0.1022

2.0是最佳分裂点。

4）根据信息增益，那个是最佳划分？

（在al,a2,a3中）（al）

5）WGINI指标，那个是最佳划分？

（在al,a2,a3中）（al）

17.考虑如下二元分类问题得数据集（CH6,参P123）

A

B

类标号

T

F

+

T

+

T

+

T

F

-

T

+

F

+

F

+

F

+

T

+

T

F

+

1）计算按照属性A、B划分时得信息增益。

决策树归纳算法

将会选择那个属性？

（GA=0.2813.GB=0.2565A）

2）计算按照属性A、B划分时的GINI指标。

决策树归纳算

法将会选择那个属性？

（不纯度降低：

0.1371,0.1633,（B）

18.已知下表：

（CH6,参P124）

A

B

C

实例数

+

—

T

5

0

F

T

0

20

T

F

T

20

0

F

T

0

5

T

F

0

F

T

F

25

0

T

F

0

F

0

25

试建立一颗两层的决策树

19.（CH6,参，P139）贝叶斯分类

考虑两队之间的足球比赛：

对0和1.假设65%的比赛队0胜出，剩余得比赛队1获胜。

队0获胜得比赛中只有30%是在队1的主场，而对1取胜的比赛中75%是主场获胜。

如果下一场比赛在队1的主场进行，哪一支球队最有可能胜出呢？

（队1）

x：

东道主（0,1）y：

胜利者（0,1）

队0取胜得概率：

p（y=0）=0.65

队1取胜得概率：

p（y=l）=0.35

对1取胜的比赛中75%是主场获胜：

队1获胜时作为东道

主的概率：

p（x=lly=l）=0.75

队0获胜得比赛中只有30%是在队1的主场：

即队0取胜

时队1作为东道主得概率：

P（x=lly=0）=0.3

比较P（y=l|x=l）和P（y=Olx=l）

p（x=l|y=l）p（y=l）0.75x0.350.2625

p（y=11x=1）===

p（x=1）P（X=1）P（X=1）

/nIP（x=11J7=0）p（y=0）0.3x0.650.195

p（y=U11=1）===

p（x=1）p（x=1）p（x=1）

P（y=llx=l）>P（y=0lx=l）所以，队1可能取胜。

20.（ch6,参P195,8）

考虑下列数据集：

实例

A

B

C

类

1

0

1

-

2

1

0

1

+

3

0

1

0

-

4

1

0

-

5

1

0

1

+

6

0

1

+

7

1

0

-

8

0

-

9

0

1

0

+

10

1

+

1）估计条件概率P（A=1I+）,P（B=1I+）,P（C=1I+）,P（A=1I-）,

P（B=1I-）,P（C=1I-）

（0.6,0.4,0.8,0.4,0.4,0.2）

2）根据1）中的条件概率，使用朴素贝叶斯分类方法预测测

试样本（A=1,B=1,C=1）得类标号。

（+）

3）比较P（A=1）,P（B=1）和P（A=1,B=1）,陈述AB之间的关系。

（独立）

14、（ch7）

假设数据集D含有9个数据对象（用2维空间的点表示）：

Al（3,2）,A2（3,9）,A3（8,6）,Bl（9,5）,B2（2,4）,B3（3,10）,Cl（2,6）,

C2（9,6）,C3（2,2）

采用k-均值方法进行聚类，距离函数采用欧几里德距离，取

k=3,假设初始的三个簇质心为A1,B1,和Cl,求：

（1）第一次循环结束时的三个簇的质心。

（2）最后求得的三个簇。

A2A3

B2

B3

C2

C3

A1

V49

V41

V5

V64V52VI

ClV10V36V4V17V49V16

第一次循环结束时：

（A1,C3）质心为（2.5,2）或（3,2）（B1,A3,C2），质心为:

（8.7,5.7）或（9,6）

（C1,A2,B2,B3）,质心为：

（2.7,8.3）或

（3,8）

平方误差E=28

第二次循环

A1

A2

A3

B1

B2

B3

C1

C2

C3

3,2

0

V49

V41

V45

V

5

V64

V17

V52

1

9,6

V

52

V45

1

V

53

"65

"49

0

V65

3,7

V

V25

V26

V40

V

V9

V2

V37

V26

2510

第二次循环结束时：

（A1,B2,C3）质心为（2.3,2.7）或（2,3）

（A3,B1,C2），质心为：

（8.7,5.7）或（9,6）

（A2,B3,C1）,质心为：

（2.5,7.25）或

（3,7）

平方误差E=21

第三次循环

AlA2A3BlB2B3ClC2C3

2,3

V2

V37

V45

V53

V

1

V50

V9

V58

1

9,6

V

52

V45

1

V

53

V65

V49

0

V65

3,7

V

25

V4

V26

V40

V

10

V9

V2

"37

V37

第三次循环结束时：

（A1,B2,C3）质心为（2.3,2.7）或（2,3）不变

（A3,B1,C2），质心为:

（8.7,5.7）或（9,6）不变

（A2,B3,C1）,质心为：

（2.5,7.25）或

（3,7）不变

平方误差E=21不变

15.（ch7）

已知四个点的坐标如下:

占八、、

X坐标

Y坐标

P1

0

2

P2

2

0

P3

3

1

P4

5

1

其欧几里德距离矩阵:

P1

P2

P3

P4

P1

0

P2

2.8

0

P3

3.2

1.4

0

P4

5.1

3.2

2

0

试进行单链、全链聚类，并画出树形图。

答案：

单链：

Pl

P2,p3

P4

P1

0

P2,p3

2.8

0

P4

5.1

2

0

Pl

P2,p3,p4

Pl

0

P2,p3,p4

2.8

0

P2,p3P2,P3,P4p2,p2,p4,pl

全链：

第一步同单链

Pl

P2,p3

P4

Pl

0

P2,p3

3.2

0

P45.13.20

P2,p3P2,P3,P4p2,p2,p4,pl

或：

P2,p3P2,P3,P1p2,p2,pl,p4

16.请将下列属性分类：

（ch7）

1）用AM和PM表示的时间（序数变量）

2）按度测出得。

和360之间的角度（区间标度变量）

3）奥运会上授予得铜牌、银牌和金牌（序数）

4）学生的性别（二元）

5）用如下值表示得透光能力：

不透明、半透明、透明（序数）

6）外套寄存号码（当你出席一个活动时，你常常可以将你的外套交给某个人，然后他给你一个号码，你可以在离开时来取）（名义）

17.计算下表表示的混淆矩阵得隔和纯度

族

娱乐

财经

国外

都市

国内

体育

合计

#1

1

0

11

4

676

693

#2

27

89

333

827

253

33

1562

#3

326

465

8

105

16

29

949

合计

354

555

341

943

273

738

3204

iwmvVIBIVVIIIVVIVIIIIIWIIIHIVIbHVIVIVVb11

Cluster

Entertainment

Financial

Foreign

Metro

National

Sports

Total

Entropy

Purity

#1

1

0

11

4

676

693

0.20

0.98

#2

27

89

333

82?

253

33

1562

1.M

0.53

#3

326

465

8

105

16

29

W

1.70

0.49

Total

物

555

341

W

273

738

搠

144

0.61

18.已知四个点的相异度矩阵:

占八、、

Pl

P2

P3

P4

Pl

0

P2

0.2

0

P3

0.35

0.3

0

P4

0.45

0.4

0.1

0

试进行单链、全链聚类，并画出树形图。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘数据挖掘习题 doc

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：原《数据挖掘》习题doc.docx
链接地址：https://www.bdocx.com/doc/7361134.html

原《数据挖掘》习题doc.docx

热门标签