书签分享收藏举报版权申诉 / 22

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 其它 > 统计建模课程复习与练习剖析Word下载.docx

统计建模课程复习与练习剖析Word下载.docx

文档编号：20242590
上传时间：2023-01-21
格式：DOCX
页数：22
大小：28.09KB

《统计建模课程复习与练习剖析Word下载.docx》由会员分享，可在线阅读，更多相关《统计建模课程复习与练习剖析Word下载.docx（22页珍藏版）》请在冰豆网上搜索。

统计建模课程复习与练习剖析Word下载.docx

square）

4.模型评价:

对模型的整体和参数的估计值进行评价。

如果模型拟合效果不佳，对模型进行修

正后重新估计和评价。

10.

观察变量、潜在变量

测量变量：

也叫观察变量或显变量（显示变量），是可以直接测量的指标。

潜变量：

无法直接观测，其测量是通过一个或几个可观察指标来间接完成的。

11.

测量模型、结构模型

、

2

测量模型

3

典型的SEM模型图示

12.

外生变量、内生变量

外生变量：

在模型或系统中，只影响其他变量，而不受其它变量的影响。

在路径图中，只有指向其他变量的箭头，没有箭头（不考虑残差项）指向它的变

量

内生变量：

在模型或系统中，受其他变量（外生变量或内生变量）的影响，而不

受其它变量的影响。

在路径图中，有其它变量的箭头指向它。

13.

因果关系、相关关系

因果关系：

一个变量对另外一个变量的直接影响。

用单向箭头表示。

相关关系：

双向曲线箭头表示。

但这种相关关系不代表有因果关系。

因果关系需要更严密的证明。

例如，常吃鱼的学生学习成绩更好。

二者是相关关

系，但不一定具有因果关系。

14.

直接效应、间接效应和总效应

直接效应：

反映原因变量（外生变量或内生变量）对结果变量（内生变量）的直

接影响。

其大小等于原因变量到结果变量的路径系数。

间接效应：

反映原因变量通过一个或者多个中间变量对结果变量所产生的影响。

4

间接效应是所有从原始变量出发，通过中间变量，结束于结果变量的路径系数乘

积之和。

总效应：

原因变量对结果变量效应的总和，包括直接效应和间接效应。

15.

饱和模型与非饱和模型

预设模型（Default

model）：

所建立的模型。

饱和模型（Saturated

对参数间关系最无限制的模型，各个变量间都假设相关或有因果关系。

独立模型（Independence

指模型中所有变量完全独立。

只估计观测变量的方差。

也叫零模型。

如果“预设模型”拟合的比“独立模型”还差，就应该拒绝预设模型。

通常预设

模型的拟合优度在独立模型和饱和模型之间。

16.

简述内生变量和外生变量的区别。

内生变量是由模型系统决定的,同时也对模型系统产生影响，外生变量影响系统但

不受系统影响.外生变量一般是经济变量,条件变量,政策变量,虚变量

17.

简述路径系数和载荷系数的区别。

：

潜变量与潜变量间的回归系数称为路径系数，潜变量与可观测变量间的回归系数

称为载荷系数。

18.

在结构方程模型中，Default

model（预设模型）、Saturated

model（饱和模型）、

Independence

model（独立模型）三类模型有什么区别，并举例说明。

5

19.

比较验证性因子分析（CFA）与探索性因子分析（EFA）的区别。

探索性因子分析（CFA）：

针对已有数据，探索模型中变量之间的关系。

目的在

于探索。

样本量应超过100，应该为观测变量的5-10倍以上（Hair,

1998）

验证性因子分析（Confirmatory

Factor

Analysis,

EFA）：

验证根据理论预设的模型中，若干变量之间的关系是否成立。

目的在于

验证。

样本量至少150个（Rigdon,

E.

2005），至少为观测变量数目的10-

15倍以上（Thompson,

2000）

20.

简述PLS-PM模型与SEM模型的区别，比较二者的优缺点。

PLS-PM不对数据做任何分布假定,

而SEM必须假定数据为多元正态分布。

但学界往往忽视此点，误用SEM模型。

在

实际应用中,

往往统计不显著也都判定显著,

这是因为数据很难满足正态性假定。

在正态假定下,

PLS估计是有偏的；

但在非正态条件下，PLS-PM优于SEM。

PLS-PM适用于小样本；

SEM样本量必须较大。

PLS-

PM假定所有隐变量都是相关的（即使在图中它们之间无箭头），而SEM假定，只

要隐变量之间无箭头,

就认为它们之间的相关为零；

6

PLS-PM用全部数据建模，而SEM由于假定了分布,

只要有各变量的协方差矩阵就可以计算。

例如，4个观测变量，只需协方差及样本

量n，共11个数就可以得到大量输出结果，这意味着先验假定对结果影响较大。

由于软件支持，而且只要有协方差阵即可计算,

社会学、心理学、教育学等学者偏好SEM方法。

PLS-PM和SEM的检验评价指标不同；

PM适用于关注隐变量得分的情况（例如满意度指数），各国计算满意度指数都用

PLS-PM方法。

SEM无法直接得到隐变量得分。

PLS-PM收敛速度快,

适用于较大、较复杂的模型,

计算效率比SEM更高。

PM无商业软件支持，知名度低；

SEM有LISREL、AMOS等软件支持，知名度高

。

21.

季节调整的分解方式包括哪几种模型？

22.

在季节调整过程中，什么时候选择取对数？

什么时候不取对数？

乘法模型取对数，加法模型不取对数

针对某个序列而言，数据波动明显取对数，数据波动平稳不取

存在异方差的时候必须取对数

7

23.

指数平滑包括哪几种常用的方法，并指出每一种指数平滑方法的适用条件。

（1）单指数平滑（一个参数）

这种单指数平滑方法适用于序列值在一个常数均值上下随机波动的情况，

无趋势及季节要素。

（2）双指数平滑（一个参数）

这种方法是将单指数平滑进行两次（使用相同的参数）。

适用于有线性趋势的序

列。

（3）Holt-Winters

—

无季节趋势（两个参数）

这种方法适用于具有线性时间趋势、无季节变差的情形。

这种方法与双指数平滑法一样以线性趋势无季节成分进行预测。

双指数平滑法只

用了一个参数，这种方法用两个参数。

（4）Holt-Winters加法模型（三个参数）

该方法适用于具有线性时间趋势和加法模型的季节变差。

（5）

Holt-Winters

乘法模型

该方法适用于具有线性时间趋势和乘法模型的季节变差

24.

在机器学习中，常用的分类方法有哪些？

监督学习

:

1.

K近邻

2.

回归

3.支持向量机回归（SVM）

4

.决策树

5.

朴素贝叶斯

6.人工神经网络

非监督学习

1.聚类

2.Apriori

3.FP-growth

25.

举例说明决策树的基本思想及其优势。

基本思想：

决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为

度量构造一棵熵值下降最快的树，到叶节点处的熵值为零，此时每个叶节点中的

实例都属于同一类。

优点：

1决策树模型可以读性好，具有描述性，有助于人工分析；

2

效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过

决策树的深度。

26.

交叉验证的基本思想是什么？

常见的交叉验证方法有哪些？

将原始数据进行分组，一部分做为训练集（train

set），另一部分做为验证集（validation

8

set）。

首先，用训练集进行训练，然后，利用验证集来测试训练得到的模型，以此

来做为评价分类器的性能指标。

主要分类

Hold-Out方法、K折交叉验证、留一交叉验证

27.

结合图形，解释Adaboost和Bagging方法的原理，并比较二者的区别。

AdaBoost

算法原理：

boosting提升法的一种特例，试试调节抽样权重的过程

bagging回归的做法：

不断放回地对训练样本进行再抽样，样本量和原来样本量相同；

对每个自助样本都建立一棵回归树；

对于每一个观测，每棵树给一个预测；

将这些值进行投票（分类问题）或者求平均值（回归问题）作为最终的预测值

AdaBoost和bagging都是在若干分类器基础上的一种集成算法，区别在于，如果一

个训练样本在前一个分类器中分类犯错，那么在下一次抽样过程中，它的权重会

被加重；

相应地，被正确分类的样本的权重会下降。

9

28.

比较随机森林分类算法和决策树算法的区别，解释随机森林的原理。

变量又进行了随机抽样

原理：

从样本集中用自助法选出n个样本；

选择最佳分割属性作为节点建立决策树。

这些决策树的每一个树节点的分割变量

不是由所有的自变量竞争产生的，而是从随机选取的少数变量中产生的。

重复以上两步m次，即建立了m棵决策树。

这m个决策树形成随机森林，通过投票表决结果，决定数据属于哪一类。

随机森林的特点：

决策树的样本是随机的，每棵树的每个节点的产生也是随机的

29.

结合图形，解释支持向量机（SVM）方法的原理。

把图弄明白

找出两块边界，最宽的平行线上的点叫支持向量

在线性可分情况下，在原空间寻找两类样本的最优分类超平面。

在线性不可分的情

况下，加入了松弛变量进行分析，通过使用非线性映射将低维输入空间的样本映射

到高维属性空间使其变为线性情况，从而使得在高维属性空间采用线性算法对样本

的非线性进行分析成为可能，并在该特征空间中寻找最优分类超平面。

其次，它通

过使用结构风险最小化原理在属性空间构建最优分类超平面，使得分类器得到全局

最优，并在整个样本空间的期望风险以某个概率满足一定上界。

30.

Bootstrap的定义。

10

bootstap（自助、自举、鞋襻）：

一种从给定训练集中等概率、有放回的进

行重复抽样，也就是说，每当选中一个样本，它等可能地被再次选中，并

被再次添加到训练集中。

31.

结构方程模型。

关于结构方程模型的内容，请认真学习两个案例“超市满意度模型”和“收入满

意度模型”。

画出两个图，标准化和非标准化的结果图，并给出部分文本输出结果：

.77

e1.46

e2.23

e3.40

e14

亲友满意

家庭满意

个性满意

健康满意

1.88

1.87

1.00

1.20

25915.40

个体状况

.11

-.31

3.03

e10

e11

.00

e12

53.52

e92360.16

e81876.55

e7

收入

资产

期望收入

.63

收入状况

.14

.39

目前快乐

2.30

收入满意

地位满意

.90

e15

工作满意

.12

1.21

图

.00

-1.85

社会状况

e1

.35

.01

e2.51

.79

.70

-.05

-.10

.85

.34

e9

e8

.81

.93

.97

.92

.67

.18

e6

.42

-.14

-.54

.02

e5

e4

公正满意

地位满意

.78

.45

e15

11

Estimate

S.E.

C.R.

P

Label

个体状况

<

---

社会状况

亲友状况_1

家庭环境_1

个性状况_1

地位满意_1

公正安逸_1

收入满意_1

期望收入_1

资产1_1

收入1_1

目前快乐_1

健康环境_1

工作满意_1

.000

-2.651

.008

-.001

-3.600

***

1.000

回归系数

.141

8.536

1.203

1.882

.198

9.519

1.211

.099

12.215

1.124

.097

11.556

.630

.012

51.412

.108

.002

55.311

-1.851

.192

-9.622

-.308

.342

-.900

.368

.442

.658

1.865

.199

9.374

.898

.048

18.622

Estimate

-.105

-.142

.353

.508

.795

.784

.446

.421

.966

.902

.921

-.544

-.048

.013

.696

12

Estimates

（Group

number

1

-

Default

model）

Scalar

Maximum

Likelihood

Estimates

Regression

Weights:

Standardized

e13

e2

e3

e6

25915.401

1299.844

19.937

.022

4.957

.386

.031

12.492

.767

.037

20.820

.455

.023

19.571

.226

.020

11.072

.247

.019

12.749

2.321

.114

20.315

2.304

.112

20.506

1876.554

240.245

7.811

2360.156

139.379

16.933

53.522

3.543

15.106

3.031

.161

18.837

.404

.026

15.533

.326

16.188

e12

-->

e5

e7

.136

.017

8.129

-.144

.424

-.339

.734

8.330

1.376

6.052

工作满意_1

健康环境_1

.000

.020

.011

.493

.485

.667

-.013

.310

.702

Covariances:

Correlations:

Variances:

Squared

Multiple

R2

13

目前快乐_1

收入1_1

资产1_1

期望收入_1

收入满意_1

公正安逸_1

地位满意_1

个性状况_1

家庭环境_1

亲友状况_1

.335

.849

.813

.932

.177

.199

.615

.632

.258

.125

Model

NFI

RFI

IFI

TLI

CFI

Delta1

rho1

Delta2

rho2

model

Saturated

Independence

.981

.974

.991

.987

.991

1.000

NPAR

CMIN

DF

CMIN/DF

31

91.413

47

1.945

78

12

4858.120

66

73.608

RMR

GFI

AGFI

PGFI

2.015

.984

.593

1887.425

.507

.418

.429

PRATIO

PNFI

PCFI

.712

.699

.706

Model

Fit

Summary

CMIN

RMR,

GFI

Baseline

Comparisons

Parsimony-Adjusted

Measures

NCP

14

AIC

BCC

BIC

CAIC

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计建模课程复习练习剖析

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：统计建模课程复习与练习剖析Word下载.docx
链接地址：https://www.bdocx.com/doc/20242590.html

统计建模课程复习与练习剖析Word下载.docx

热门标签