南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx

资源ID：18562774 资源大小：17.30KB 全文页数：10页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx

1、自行规定D类的R型聚类是指（）对样本个体进行聚类对指标变量进行聚类。在估计PLSA生成模型的参数时，使用（）极大似然估计对数似然函数特征独立假设贝叶斯定理A在链接作弊的垃圾农场中，作弊者拥有并完全控制的网页称为（）不可达网页可达网页自有网页C潜在语义分析创新地引入了（）单词维度文本维度话题维度非频繁模式（）其置信度小于阈值令人不感兴趣包含负模式和负相关模式对异常数据项敏感置信度（confidence）是衡量兴趣度度量（）的指标简洁性确定性实用性新颖性决策树中的叶结点表示（）特征类属性值域输出数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（）。运营式系统阶段用户原创内容阶段感知式

2、系统阶段文本中所有单词的出现情况表示了文本的（）种类语义内容语义结构闵式距离参数是（）时代表曼哈顿距离无穷为了计算中介度，必须计算所有边上（）的数目。所有路径最短路径结点入度节点出度聚类属于（）有监督学习无监督学习强化学习对抗学习评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。准确率精确率召回率F1值逻辑斯谛分布的分布函数范围在（）（-，+）（0,1）（-1/2,1/2）（-1,1）Apriori算法的加速过程依赖于以下哪个策略（）抽样剪枝缓冲并行向量空间模型中，将单词在文本中出现的数据用一个（）表示单词-文本矩阵单词-向量矩阵距离矩阵权重矩阵潜在语义分析中，以（）表示文本

3、的语义内容话题话题向量语义向量距离向量KNN算法用MapReduce实现，要进行几轮MapReduce（）4按社团形成机制分类，社团包括（）明显的社团预定义社团自组织社团隐含的社团B,C决策树的生成过程是（）递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去构建根结点，将所有训练数据都放在根结点选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类E:如果还有子集不能被基本正确分类，那么就对这些子集选

4、择新的最优特征，继续对其进行分割，构建相应的结点A,B,C,D,E回归分析方法中，按照输入变量个数分类，可分为一元回归多元回归线性回归非线性回归A,B下列哪些任务适合构建分类模型（）银行业务中，客户申请贷款，根据客户的相关数据分析他是属于“诚信”类还是“失信”类邮件系统可以根据email标题和内容区分出垃圾邮件医学研究人员根据病理数据，合理辨识病情状况，采取合理治疗手段房价预测A,B,CID3算法流程为（）从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点所有特征的信息增益均很小或没有特征可以选择得到一个决策树对子结点递归地调用

5、，构建决策树A,B,C,D大数据在电信中的应用有基于用户、业务及流量分级的多维管控机制精准的客户分析及营销利用位置和轨迹信息服务社会统计学习方法的组成监督学习大数据在教育中的应用网上公开课慕课智慧校园翻转课堂下列属于朴素贝叶斯缺点的是（）分类效果不稳定不适合增量式训练先验模型可能导致结果不佳对缺失数据不太敏感C,D基于分类对象的分类有（）Q型聚类凝聚方式R型聚类分解方式B,DkNN算法中，选择较大的k值“学习”的估计误差会减小。（）对错SVM是在特征空间上的间隔最大的线性分类器。可信度是对关联规则的准确度的衡量。要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的

6、学习目的如果一个网页被很多网页所指向，那么该网页很可能是重要的。FP-growth算法可以避免冗余的IO读写通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习。大数据的速度快体现在数据产生速度快和要求分析处理速度快ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。TrustRank算法中，创建优质网页集合时，不会选择成员受限的域名。聚类分析中，一个类是样本的一个子集。决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。k均值聚类是硬聚类。关联规则可以用枚举的方法产生。DAG中的父节点是唯一的。PageRank算法是图数据上的无监督学习方法。TF-IDF算法中，IDF指的是文档频率监督学习是从标注数据中学习预测模型的机器学习问题朴素贝叶斯等价于期望风险最小化。

注意事项

本文（南开20秋学期《数据分析》在线作业F335354002C44EEE99Word格式文档下载.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。