20秋学期1909《数据科学导论》在线作业 1文档格式.docx
- 文档编号:13511755
- 上传时间:2022-10-11
- 格式:DOCX
- 页数:10
- 大小:17.42KB
20秋学期1909《数据科学导论》在线作业 1文档格式.docx
《20秋学期1909《数据科学导论》在线作业 1文档格式.docx》由会员分享,可在线阅读,更多相关《20秋学期1909《数据科学导论》在线作业 1文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
D
在一元线性回归模型中,残差项服从()分布。
泊松
正态
线性
非线性
B
一元线性回归中,真实值与预测值的差称为样本的()。
误差
方差
测差
残差
Apriori算法的加速过程依赖于以下哪个策略()
抽样
剪枝
缓冲
并行
数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
异常值
缺失值
不一致的值
重复值
单层感知机模型属于()模型。
二分类的线性分类模型
二分类的非线性分类模型
多分类的线性分类模型
多分类的非线性分类模型
A
层次聚类适合规模较()的数据集
大
中
小
所有
通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
简单函数变换
规范化
属性构造
连续属性离散化
例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
越小
越大
无关
不确定
考虑下面的频繁3-项集的集合:
{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
1,2,3,4
1,2,3,5
1,2,4,5
1,3,4,5
具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
1,线性
2,线性
1,非线性
2,非线性
实体识别属于以下哪个过程()
数据清洗
数据集成
数据规约
数据变换
通过变量标准化计算得到的回归方程称为()。
标准化回归方程
标准化偏回归方程
标准化自回归方程
标准化多回归方程
我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。
自上而下
自下而上
自左而右
自右而左
聚类是一种()。
有监督学习
无监督学习
强化学习
半监督学习
利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
最小化方差#最小化标准差
最小化残差平方和
最大化信息熵
实体识别的常见形式()
同名异义
异名同义
单位不统一
属性不同
以下哪一项不属于数据变换()
属性合并
距离度量中的距离可以是()
欧式距离
曼哈顿距离
Lp距离
Minkowski距离
A,B,C,D
Apriori算法的计算复杂度受()影响。
支持度阈值
项数
事务数
事务平均宽度
K-means聚类中K值选取的方法是()。
密度分类法
手肘法
大腿法
随机选取
A,B
聚类的主要方法有()。
划分聚类
层次聚类
密度聚类
距离聚类
A,B,C
对于多层感知机,()层拥有激活函数的功能神经元。
输入层
隐含层
输出层
B,C
什么情况下结点不用划分()
当前结点所包含的样本全属于同一类别
当前属性集为空,或是所有样本在所有属性上取值相同
当前结点包含的样本集为空
还有子集不能被基本正确分类
下列选项是BFR的对象是()
废弃集
临时集
压缩集
留存集
A,C,D
系统日志收集的基本特征有()
高可用性
高可靠性
可扩展性
高效率
下面例子属于分类的是()
检测图像中是否有人脸出现
对客户按照贷款风险大小进行分类
识别手写的数字
估计商场客流量
k近邻法的基本要素包括()。
距离度量
k值的选择
样本大小
分类决策规则
A,B,D
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
对
错
给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。
Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
两个对象越相似,他们的相异度就越高。
朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
K均值(K-Means)算法是密度聚类。
K-means算法采用贪心策略,通过迭代优化来近似求解。
赤池信息准则是衡量统计模型拟合优良性的一种标准。
平均减少的不纯度越大,则特征重要度越高。
标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
数据科学具有广泛的应用领域,可以应用在社交网络、职业体育、政治竞选
探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建
给定关联规则A→B,意味着:
若A发生,B也会发生。
信息熵越大,数据信息的不确定性越小。
对于分类数据,经常使用表格,来统计各种类别的数据出现的频率。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据科学导论 20秋学期1909数据科学导论在线作业 20 学期 1909 数据 科学 导论 在线 作业