南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx
- 文档编号:18562774
- 上传时间:2022-12-28
- 格式:DOCX
- 页数:10
- 大小:17.30KB
南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx
《南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx(10页珍藏版)》请在冰豆网上搜索。
自行规定
D
类的R型聚类是指()
对样本个体进行聚类
对指标变量进行聚类。
在估计PLSA生成模型的参数时,使用()
极大似然估计
对数似然函数
特征独立假设
贝叶斯定理
A
在链接作弊的垃圾农场中,作弊者拥有并完全控制的网页称为()
不可达网页
可达网页
自有网页
C
潜在语义分析创新地引入了()
单词维度
文本维度
话题维度
非频繁模式()
其置信度小于阈值
令人不感兴趣
包含负模式和负相关模式
对异常数据项敏感
置信度(confidence)是衡量兴趣度度量()的指标
简洁性
确定性
实用性
新颖性
决策树中的叶结点表示()
特征
类
属性
值域输出
数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段()。
运营式系统阶段
用户原创内容阶段
感知式系统阶段
文本中所有单词的出现情况表示了文本的()
种类
语义内容
语义结构
闵式距离参数是()时代表曼哈顿距离
无穷
为了计算中介度,必须计算所有边上()的数目。
所有路径
最短路径
结点入度
节点出度
聚类属于()
有监督学习
无监督学习
强化学习
对抗学习
评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
准确率
精确率
召回率
F1值
逻辑斯谛分布的分布函数范围在()
(-∞,+∞)
(0,1)
(-1/2,1/2)
(-1,1)
Apriori算法的加速过程依赖于以下哪个策略()
抽样
剪枝
缓冲
并行
向量空间模型中,将单词在文本中出现的数据用一个()表示
单词-文本矩阵
单词-向量矩阵
距离矩阵
权重矩阵
潜在语义分析中,以()表示文本的语义内容
话题
话题向量
语义向量
距离向量
KNN算法用MapReduce实现,要进行几轮MapReduce()
4
按社团形成机制分类,社团包括()
明显的社团
预定义社团
自组织社团
隐含的社团
B,C
决策树的生成过程是()
递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
构建根结点,将所有训练数据都放在根结点
选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E:
如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
A,B,C,D,E
回归分析方法中,按照输入变量个数分类,可分为
一元回归
多元回归
线性回归
非线性回归
A,B
下列哪些任务适合构建分类模型()
银行业务中,客户申请贷款,根据客户的相关数据分析他是属于“诚信”类还是“失信”类
邮件系统可以根据email标题和内容区分出垃圾邮件
医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
房价预测
A,B,C
ID3算法流程为()
从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
所有特征的信息增益均很小或没有特征可以选择
得到一个决策树
对子结点递归地调用,构建决策树
A,B,C,D
大数据在电信中的应用有
基于用户、业务及流量分级的多维管控机制
精准的客户分析及营销
利用位置和轨迹信息服务社会
统计学习方法的组成
监督学习
大数据在教育中的应用
网上公开课
慕课
智慧校园
翻转课堂
下列属于朴素贝叶斯缺点的是()
分类效果不稳定
不适合增量式训练
先验模型可能导致结果不佳
对缺失数据不太敏感
C,D
基于分类对象的分类有()
Q型聚类
凝聚方式
R型聚类
分解方式
B,D
kNN算法中,选择较大的k值“学习”的估计误差会减小。
()
对
错
SVM是在特征空间上的间隔最大的线性分类器。
可信度是对关联规则的准确度的衡量。
要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的
如果一个网页被很多网页所指向,那么该网页很可能是重要的。
FP-growth算法可以避免冗余的IO读写
通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。
大数据的速度快体现在数据产生速度快和要求分析处理速度快
ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
TrustRank算法中,创建优质网页集合时,不会选择成员受限的域名。
聚类分析中,一个类是样本的一个子集。
决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。
k均值聚类是硬聚类。
关联规则可以用枚举的方法产生。
DAG中的父节点是唯一的。
PageRank算法是图数据上的无监督学习方法。
TF-IDF算法中,IDF指的是文档频率
监督学习是从标注数据中学习预测模型的机器学习问题
朴素贝叶斯等价于期望风险最小化。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析 南开 20 学期 数据 分析 在线 作业 F335354002C44EEE99
链接地址:https://www.bdocx.com/doc/18562774.html