书签分享收藏举报版权申诉 / 10

立即下载加入VIP,免费下载

当前位置：首页 > 考试认证 > 从业资格考试 > 南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx

南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx

文档编号：18562774
上传时间：2022-12-28
格式：DOCX
页数：10
大小：17.30KB

《南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx（10页珍藏版）》请在冰豆网上搜索。

南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx

自行规定

D

类的R型聚类是指（）

对样本个体进行聚类

对指标变量进行聚类。

在估计PLSA生成模型的参数时，使用（）

极大似然估计

对数似然函数

特征独立假设

贝叶斯定理

A

在链接作弊的垃圾农场中，作弊者拥有并完全控制的网页称为（）

不可达网页

可达网页

自有网页

C

潜在语义分析创新地引入了（）

单词维度

文本维度

话题维度

非频繁模式（）

其置信度小于阈值

令人不感兴趣

包含负模式和负相关模式

对异常数据项敏感

置信度（confidence）是衡量兴趣度度量（）的指标

简洁性

确定性

实用性

新颖性

决策树中的叶结点表示（）

特征

类

属性

值域输出

数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。

运营式系统阶段

用户原创内容阶段

感知式系统阶段

文本中所有单词的出现情况表示了文本的（）

种类

语义内容

语义结构

闵式距离参数是（）时代表曼哈顿距离

无穷

为了计算中介度，必须计算所有边上（）的数目。

所有路径

最短路径

结点入度

节点出度

聚类属于（）

有监督学习

无监督学习

强化学习

对抗学习

评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。

准确率

精确率

召回率

F1值

逻辑斯谛分布的分布函数范围在（）

（-∞，+∞）

（0,1）

（-1/2,1/2）

（-1,1）

Apriori算法的加速过程依赖于以下哪个策略（）

抽样

剪枝

缓冲

并行

向量空间模型中，将单词在文本中出现的数据用一个（）表示

单词-文本矩阵

单词-向量矩阵

距离矩阵

权重矩阵

潜在语义分析中，以（）表示文本的语义内容

话题

话题向量

语义向量

距离向量

KNN算法用MapReduce实现，要进行几轮MapReduce（）

4

按社团形成机制分类，社团包括（）

明显的社团

预定义社团

自组织社团

隐含的社团

B,C

决策树的生成过程是（）

递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类

如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去

构建根结点，将所有训练数据都放在根结点

选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类

E:

如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点

A,B,C,D,E

回归分析方法中，按照输入变量个数分类，可分为

一元回归

多元回归

线性回归

非线性回归

A,B

下列哪些任务适合构建分类模型（）

银行业务中，客户申请贷款，根据客户的相关数据分析他是属于“诚信”类还是“失信”类

邮件系统可以根据email标题和内容区分出垃圾邮件

医学研究人员根据病理数据，合理辨识病情状况，采取合理治疗手段

房价预测

A,B,C

ID3算法流程为（）

从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点

所有特征的信息增益均很小或没有特征可以选择

得到一个决策树

对子结点递归地调用，构建决策树

A,B,C,D

大数据在电信中的应用有

基于用户、业务及流量分级的多维管控机制

精准的客户分析及营销

利用位置和轨迹信息服务社会

统计学习方法的组成

监督学习

大数据在教育中的应用

网上公开课

慕课

智慧校园

翻转课堂

下列属于朴素贝叶斯缺点的是（）

分类效果不稳定

不适合增量式训练

先验模型可能导致结果不佳

对缺失数据不太敏感

C,D

基于分类对象的分类有（）

Q型聚类

凝聚方式

R型聚类

分解方式

B,D

kNN算法中，选择较大的k值“学习”的估计误差会减小。

（）

对

错

SVM是在特征空间上的间隔最大的线性分类器。

可信度是对关联规则的准确度的衡量。

要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的学习目的

如果一个网页被很多网页所指向，那么该网页很可能是重要的。

FP-growth算法可以避免冗余的IO读写

通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习。

大数据的速度快体现在数据产生速度快和要求分析处理速度快

ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。

数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。

TrustRank算法中，创建优质网页集合时，不会选择成员受限的域名。

聚类分析中，一个类是样本的一个子集。

决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。

k均值聚类是硬聚类。

关联规则可以用枚举的方法产生。

DAG中的父节点是唯一的。

PageRank算法是图数据上的无监督学习方法。

TF-IDF算法中，IDF指的是文档频率

监督学习是从标注数据中学习预测模型的机器学习问题

朴素贝叶斯等价于期望风险最小化。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据分析南开 20 学期数据分析在线作业 F335354002C44EEE99

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx
链接地址：https://www.bdocx.com/doc/18562774.html

南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx

热门标签