南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx
- 文档编号:20314498
- 上传时间:2023-01-21
- 格式:DOCX
- 页数:26
- 大小:32.53KB
南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx
《南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx》由会员分享,可在线阅读,更多相关《南开网考在线课程考试《数据分析》复习资料1144766066Word下载.docx(26页珍藏版)》请在冰豆网上搜索。
第7章文本分析
(1)文本分析模型
(2)文本话题分析
(3)潜在语义分析
(4)概率潜在语义分析
(5)潜在狄利克雷分配
第8章链接分析
(1)PageRank算法(上)
(2)PageRank算法(下)
(3)HITS算法
(4)链接作弊
第9章社交网络分析
(1)社交网络分析
(2)基于中介度的社团发现
(3)基于图划分的社团发现
第10章推荐系统
(1)推荐系统概述
(2)基于内容的推荐算法
(3)协同过滤推荐算法
一、客观部分:
(单项选择、多项选择)
(一)、单项选择
1以下全表统计量中,不能反映数据集中趋势的是()
A.均值
B.中位数
C.众数
D.极差
★考核知识点:
基本统计量
参见讲稿章节:
2.2
附1.1.1:
(考核知识点解释)
根据反映出的数据特征可以将基本统计量分为两类:
1.反映数据集中趋势的和2.反应数据波动大小的。
反映数据集中趋势的度量包括均值、中位数和众数。
能够反应数据散布情况的数据波动大小度量包括极差和方差(标准差)。
2.()是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
A.监督学习
B.无监督学习
C.强化学习
D.主动学习
★考核知识点:
统计学习方法分类
参考讲稿章节:
2.4
附1.1.2(考核知识点解释):
统计学习或机器学习一般包括监督学习(supervisedlearning)、无监督学习(unsupervisedlearning)、强化学习(reinforcementlearning)。
有时还包括半监督学习(semi-supervised)、主动学习(activelearning)。
监督学习(supervisedlearning)是指从标注数据中学习预测模型的机器学习问题。
无监督学习(unsupervisedlearning)是指从无标注数据中学习预测模型的机器学习问题。
强化学习(reinforcementlearning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
半监督学习(semi-supervisedlearning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习(activelearning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
3.以下不属于统计学习方法三要素的是()
A.模型
B.函数
C.策略
D.算法
统计学习方法三要素
2.5
附1.1.3:
统计学习方法都是由模型、策略和算法构成的,即统计学习方法由三要素构成可以简单地表示为方法=模型+策略+算法
4.以下关于Apriori算法描述错误的是()
A.Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。
B.Apriori算法主要步骤包括发现所有的频繁项集、生成强关联规则。
C.Apriori算法只需要扫描两次数据库。
D.频繁项集的子集必为频繁项集,非频繁项集的超集一定是非频繁的。
Apriori算法
3.4
附1.1.4:
Apriori算法是一种经典的生成布尔型关联规则的频繁项集挖掘算法。
Apriori算法步骤:
步骤一:
生成频繁项集,既支持度不低于用于设定阈值的项集
步骤二:
利用频繁项集构造出满足用户最小置信度的关联规则
Apriori算法局限性:
需要多次扫描数据表、产生大量候选集
Apriori算法性质:
性质1:
频繁项集的子集必为频繁项集
性质2:
非频繁项集的超集一定是非频繁的
5.以下不能表达词在文本中的重要程度的是()
A.布尔权重
B.词频权重
C.TF-IDF权重
D.向量余弦
文本分析模型
7.1
附1.1.5:
最简单、最常用的文本表示方法是利用向量空间模型(vectorspacemodel,VSM),也就是单词向量空间模型(wordvectorspacemodel)来描述文本。
常用的表示词在文本中的重要程度的方法有:
布尔权重、词频权重、TFIDF权重。
布尔权重是最简单的一种加权方式。
布尔权重方法只在一定程度描述了文本的性质,即包含不包含哪些词,并没有体现出文本的全部信息,如词出现次数不同,其对文本的影响也应当不同等问题。
词频(TermFrequency,TF)权重的基本思想是词出现次数不同应当在该特征的权重中有所反映。
TF-IDF是结合了TF(词频)和IDF(逆文本频率)对词在文本中的重要程度进行综合衡量。
文本之间的语义相似度可以用两个单词向量的的内积或标准化内积(余弦)表示。
(二)、多项选择
1.大数据的特征包括()
A.体量大(Volume)
B.多样性(Variety)
C.速度快(Velocity)
D.价值高(Value)
大数据的特征
1.2
附1.2.1(考核知识点解释):
目前在描述大数据特征时,一般是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(Volume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。
1).体量大(Volume):
数据量大是大数据的基本属性。
数据规模的大小是用计算机存储容量的单位来计算的,数量的单位从TB级别跃升到PB级别、EB级别,甚至ZB级别。
2).多样性(Variety):
大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。
即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3)速度快(Velocity):
大数据环境中速度快有两层含义:
一是数据产生速度快;
二是要求数据分析处理速度快。
4)价值高(Value):
大数据拥有大量有价值信息,通过提炼的信息,能够在更高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的价值和商机。
2.按照数据结构分类,数据可分为()
A.结构化数据
B.半结构化数据
C.非结构化数据
D.无结构数据
按照数据结构分,大数据的数据类型
附1.2.2(考核知识点解释):
在早期,数据类型主要是以结构化数据为主,即传统的关系型数据,主要存储在关系数据库中。
随着互联网应用的深入,特别是社交网络、电子商务、传感器、智能设备的飞速发展,数据也变得更加复杂,出现了网页、web日志、博客、微博、图片、音频、视频、地理位置信息、电子邮件、文档等原始、半结构化、非结构化数据。
其中,视频等非数据占很大比例,有数据表明,到2016年,全部互联网流量中,视频数据达到55%,大数据中90%都是非结构化数据。
P
并且,大数据不仅仅在形式上多元化,其信息来源、维度也表现出多样性。
3.根据数据分析深度,可将数据分析分为()
A.关联性分析
B.预测性分析
C.规则性分析
D.描述性分析
根据数据分析深度,数据分析的类型
1.3
附1.2.3:
根据数据分析深度,可将数据分析分为3个层次:
描述性分析(DescriptiveAnalysis),预测性分析(PredictiveAnalysis)和规则性分析(PrescriptiveAnalysis)。
1描述性分析基于历史数据来描述发生的事件。
例如,利用回归分析从数据集中发现简单的趋势,并借助可视化技术来更好地表示数据特征。
2预测性分析用于预测未来事件发生的概率和演化趋势。
例如,预测性模型使用对数回归和线性回归等统计技术发现数据趋势并预测未来的输出结果。
3规则性分析用于解决决策制定和提高分析效率。
例如,利用仿真来分析复杂系统以了解系统行为并发现问题,并通过优化技术在给定约束条件下给出最优解决方案。
4.根据数据分析的实时性,可将数据分析分为()
A.实时数据分析
D.离线数据分析
按照数据分析的实时性,数据分析的类型
附1.2.4:
按照数据分析的实时性,一般将数据分析分为实时数据分析和离线数据分析。
实时数据分析也称在线数据分析,能够实时处理用户的请求。
离线数据分析通过数据采集工具将日志数据导入专用分析平台进行分析,非实时处理数据。
5.下列哪些方法是分类算法()
A.决策树
B.Apriori
C.逻辑斯谛回归
D.支持向量机
分类分析
4.1
附1.2.5(考核知识点解释):
许多统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、支持向量机、随机森林等等。
6.k近邻模型的三个基本要素是()
A.距离度量
B.模型参数估计
C.k值选择
D.分类决策规则
k近邻法
4.2
附1.2.6(考核知识点解释):
k近邻法使用的模型实际上对应于对特征空间的划分.模型由三个基本要素一一一距离度量、k值的选择和分类决策规则决定.
7.基于相似系数的相似度度量方法包括()
A.余弦相似度
B.汉明距离
C.Jaccard相似系数
D.皮尔森相关系数
相似度
5.1
附1.2.7:
通过计算相似系数来衡量相似性,常用的相似系数如下:
1.余弦相似度
2.汉明距离
3.Jaccard相似系数
4.皮尔森相关系数
8.聚合聚类需要预先确定以下()要素
A.距离或相似度
B.合并规则
C.分裂规则
D.停止条件
层次聚类
5.4
附1.2.8:
聚合聚类需要预先确定下面三个要素:
(1)距离或相似度:
(2)合并规则;
(3)停止条件。
根据这些要素的不同组合,就可以构成不同的聚类方法。
距离或相似度可以是闵可夫斯基距离、马哈拉诺比斯距离、相关系数、夹角余弦。
合并规则一般是类间距离最小,类间距离可以是最短距离、最长距离、中心距离、平均距离。
停止条件可以是类的个数达到阈值(极端情况类的个数是1)、类的直径超过阈值。
9.对于不同的数据规模、不同的实时性要求、具有不同固有时空复杂性的问题,所用的大数据分析算法设计技术是不同的,大数据分析算法设计技术包括()
A.随机算法
B.外存算法
C.并行算法
D.Anytime算法
大数据分析算法
6.1
附1.2.9(考核知识点解释):
对于不同的数据规模、不同的实时性要求、具有不同固有时空复杂性的问题,所用的算法设计技术是不同的。
1)随机算法。
2)外存算法。
3)并行算法。
4)Anytime算法。
10.在垃圾农场中,整个Web分成()
A.不可达网页
B.可达网页
C.导航网页
D.自有网页
链接作弊
8.4
附1.2.10(考核知识点解释):
为提高某个或某些特定网页PageRank值而构建的一系列网页称为垃圾农场(spamfarm)或链接农场(linkfarm)。
右图中给出了垃圾农场的简单形式,按照作弊者的观点,整个Web分成三部分:
不可达网页、可达网页和自有网页。
1)不可达网页:
作弊者无法影响的网页,Web中大部分网页属于不可达网页
2)可达网页:
这些网页虽不受作弊者控制,但是作弊者可影响它们。
例如:
作弊者通常选择博客、报纸或论坛等网页作为可达网页。
虽然作弊者不能控制这类网页,但可通过留言等方式在可达网页中嵌入自有网页的网址。
3)自有网页:
作弊者拥有并完全控制的网页
垃圾农场由作弊者的自有网页和一些从可达网页指向他们的链接共同组成。
由于没有外部指入的链接,垃圾农场就不可能能被搜索引擎采集,因而毫无价值。
二、主观部分:
(一)、名词解释
1.统计学习
统计机器学习
2.3
附2.1.1(考核知识点解释):
统计学习(statisticallearning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
2.监督学习(supervisedlearning)
监督学习(supervisedlearning)
附2.1.2(考核知识点解释):
3.无监督学习(unsupervisedlearning)
无监督学习(unsupervisedlearning)
附2.1.3(考核知识点解释):
4.强化学习(reinforcementlearning)
强化学习(reinforcementlearning)
附2.1.4(考核知识点解释):
5.主动学习(activelearning)
主动学习(activelearning)
附2.1.5(考核知识点解释):
6.过拟合
模型评估与模型选择
2.6
附2.1.6(考核知识点解释):
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高.这种现象称为过拟合(over-fitting).
过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对己知数据预测得很好,但对未知数据预测得很差的现象。
7.正则化
正则化
2.7
附2.1.7(考核知识点解释):
正则化是结构风险最小化的策略实现,是在经验风险上加一个正则化项(regularizer)或罚项(penaltyterm)。
8.S折交叉验证
交叉验证
附2.1.8(考核知识点解释):
S折交叉验证(S-foldcrossvalidation)方法如下:
首先随机地将已给数据切分为S个互不相交的大小相同的子集;
然后利用S一1个子集的数据训练模型,利用余下的子集测试模型;
将这一过程对可能的S种可能(即划分后,把每个子集都当一次测试集其余训练集)重复进行;
最后选出S次评测中平均测试误差最小的模型.
9.回归分析
回归分析
3.2
附2.1.9(考核知识点解释):
回归分析方法是在众多的相关变量中,根据实际问题考察其中一个或多个变量(因变量)与其余变量(自变量)的依赖关系。
10.相关分析
相关分析
附2.1.10(考核知识点解释):
相关分析是对总体中确实具有联系的指标进行分析。
它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。
11.关联规则分析
关联规则分析
3.3
附2.1.11(考核知识点解释):
关联规则分析又称关联挖掘,即在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
关联规则分析用于发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。
12.分类分析
附2.1.12(考核知识点解释):
分类分析是指在已知研究对象已经分为若干类的情况下,确定新的对象属于哪一类。
13.聚类分析
聚类分析
附2.1.13(考核知识点解释):
聚类分析(Clusteranalysis)简称聚类(Clustering),是针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”(cluster)的数据分析问题。
一个类是样本的一个子集。
直观地,相似的样本聚集在相同的类,不相似的样本分散在不同的类。
14.类的直径
类的特征
5.2
附2.1.14:
类的直径(diameter)DG是类中任意两个样本之间的最大距离。
15.类间的中心距离
类间的中心距离
附2.1.15:
一个类中所有样本的均值,即类的中心。
类间的中心距离使用两类中心之间的距离作为两类间的距离。
16.特征选择
特征选择
7.1
附2.1.16:
通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征选择。
17.链接分析
链接分析
8.1
附2.1.17:
链接分析(linkanalysis)是对网络链接的自身属性、链接对象、链接网络等各种现象进行分析,以便揭示其数量特征和内在规律的一种研究方法。
18.网页权威性
HITS算法
8.3
附2.1.18:
网页权威性反映了网页本身质量的好坏,如果该网页的内容很好,则它的权威性就可能很高。
19.网页导航性
附2.1.19:
网页导航性反映了网页作为路由的好坏,如果该网页所指向的很多网页的质量都很高,那么该网页本身的导航性就可能很高。
20.链接作弊
链接作弊
附2.1.20:
人工创建链接结构来增加网页PageRank值的方法称作链接作弊(linkspam)。
21.社交图
社交网络分析
9.1
附2.1.21:
社交网络可以采用图来建模,用于表示社交网络的图被称为社交图(socialgraph)。
其中,图的节点为社交网络中的实体,节点之间的边则表示实体之间的关系。
22.中介度
中介度
9.2
附2.1.22:
一条边(a,b)的中介度定义为节点对(x,y)的数目,其中(a,b)处于x和y的最短路径上。
如果(a,b)的中介度高,那么意味着它处于两个社团之间。
23.度数矩阵
度数矩阵
9.3
附2.1.23:
度数矩阵是一个对角阵,第i行第i列的元素表示的是第i个结点的度数。
24.邻接矩阵
邻接矩阵
附2.1.24:
邻接矩阵是如果结点i和j之间有边,则矩阵的第i行、第j列的元素为1,否则为0。
25.图划分
图划分
附2.1.25:
将无向图中的结点划分到两个不相交的组
26.割(cut)
割(cut)
附2.1.26:
连接两个组的边的集合,称为割(cut),即在每组中只有一个结点的边的集合。
27.归一化割(normalizedcut)
归一化割(normalizedcut)
附2.1.27:
归一化割(normalizedcut)定义为组间连接数目与组容量的比之和。
28.效用矩阵(utilitymatrix)
效用矩阵(utilitymatrix)
10.1
附2.1.28:
效用矩阵(utilitymatrix)反映的是用户对于商品的评价结果,该矩阵中每个用户-项对所对应的元素值代表的是当前用户对当前项的喜好程度,喜欢程度来自评分集合。
(二)、简答
1.人类社会的数据产生方式经历了哪些阶段?
简述各阶段的特点。
数据产生方式变革、大数据的数据来源
附2.2.1(考核知识点解释):
人类历史上从未有哪个时代和今天一样产生如此海量的数据,人类社会的数据产生方式大致经历了3个阶段:
运营式系统、用户原创内容阶段、感知式系统阶段。
(1)运营式系统:
数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,这些数据规范、有秩序、强调数据的一致性,且这些数据的产生方式是被动的。
(2)用户原创内容阶段:
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但真正的数据爆发产生于Web2.0时代,其重要标志就是用户原创内容。
以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;
新型移动设备出现,易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷
数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性,这些数据的产生方式是主动的。
(3)感知式系统:
人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感知式系统的广泛使用。
微小带着处理功能的传感器设备广泛布置于社会的各
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析 南开 在线 课程 考试 数据 分析 复习资料 1144766066
![提示](https://static.bdocx.com/images/bang_tan.gif)