机器学习整理新.docx
- 文档编号:27807026
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:41
- 大小:3.69MB
机器学习整理新.docx
《机器学习整理新.docx》由会员分享,可在线阅读,更多相关《机器学习整理新.docx(41页珍藏版)》请在冰豆网上搜索。
机器学习整理新
第一章计算学习理论(书的第七章)
1.概念
传统的模式识别理论是以概率为1成立为基础
PAC(probablyapproximatelycorrect,概率近似正确)认为机器学习应该以PAC为基础
统计学习理论(egSVM)中的泛化理论以此为基础
弱可学习理论及集群(Ensemble)学习以此为理论基础
3.PAC可学习性
概率近似(PAC)学习:
首先只要求学习器输出错误率限定在某常数ε范围内的假设,其次要求对所有的随机抽取样例序列的失败的概率限定在某常数δ范围内
PAC可学习性的一个隐含的条件:
对C中每个目标概念c,假设空间H都包含一个以任意小误差接近c的假设
第二章集群学习理论
1.ADABOOST
弱可学习的概念:
通常指一个弱分类器,该分类器的性能仅仅比随机猜测稍好一点
弱可学习定理:
如果一个概念是弱可学习的,其必要条件是它是强可学习的。
定理的证明过程是构造性的,Boosting技术
弱可学习定理的现实指导意义:
意味着我们只需要设计一组弱分类器,并将它们集群起来,就可以构成一个强分类器
集群机器学习:
将若干弱学习器集成(提升)为一个强学习器的学习算法
Thegoalofalearningalgorithmistofindaclassifierwithlowgeneralizationerror.TheunderlyingideaofBoostingistocombinesimple“rules”toformanensemblesuchthattheperformanceofthesingleclassifierisimproved
学习算法的一个目标是找到一个分类器低泛化误差。
来刺激基本思想是将简单的“规则“,形成一个合奏等该单分类器的性能得到改善
ThemainideasofAdaBoostistomaintainadistributionorasetofweightsoverthetrainingset.Initially,allweightsaresetequally,butoneachround,theweightsonmisclassifiedexamplesareincreasedsothattheweaklearnerisforcedtofocusonthehardsamplesinthetrainingset.
AdaBoost算法的主要思想的是保持一个或一组分布在训练的权重集。
最初,所有的权重设置同样的,但在每一轮的权重上误判例子增多,使学习者被迫弱专注于训练集的硬样品。
(1)样本的权重
•没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N
•每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大,使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。
(2)弱学习机的权重
•准确率越高的弱学习机权重越高
(3)循环控制:
损失函数达到最小
•在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。
2.ADABOOST计算步骤
Step1:
原始训练集输入,带有原始分布
Step2:
给出训练集中各样本的权重
Step3:
将改变分布后的训练集输入已知的弱学习机,弱学习机对每个样本给出假设
Step4:
对此次的弱学习机给出权重
Step5:
转到Step2,直到循环到达一定次数或者某度量标准符合要求
Step6:
将弱学习机按其相应的权重加权组合形成强学习机
3.ADABOOST基本思想与一些结论(看实例)
样本的权重
没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N
每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大,使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。
弱学习机的权重
准确率越高的弱学习机权重越高
循环控制:
损失函数达到最小
在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。
Largemarginproperty
AdaBoostalgorithmissuitedtothetaskofmaximizingmarginoftrainingsamples.Thatmeansthegenerationperformanceisgood.
AdaBoost算法适合最大化利润任务训练样本。
这意味着一代性能好的。
Conferencemeasurement
AdaBoostcanbeextendedtohandleweakhypotheseswhichoutputreal-valuedorconfidence-ratedpredictions.
AdaBoost算法可以推广到弱的假设的处理输出的实值或信心级预测。
4.ADABOOST优缺点
优点:
提高分类精度
保证性能的理论
可用于许多不同的分类
通常用于很多领域
实现简单
不会出现过拟合
缺点:
HugestorageisinvolvedforAdaBoostsothatmakeithardtobepracticalforlargescalerecognitionproblems
巨大的存储为AdaBoost的参与,使得在难以被承认为大规模问题的实际中应用
第三章支持向量机SVM(p166p167)
1.感知器线性算法
思想:
LARGEMARGIN
一、SVM的一些关键思想
1.结构风险最小化(SRM)原则
•关注泛化能力
•LargeMargin(最大边界)(例子如后页的图1)
2.计算学习理论的数学基础
•小样本问题和小样本理论
•VC维CoLT
3.性能的理论保证
4.利用核函数解决非线性问题
2.结构风险最小化SRM
3.MARGIN数学表达
4.松弛因子C越小越好
5.核函数,核方法
Keyidea:
transformxitoahigherdimensionalspace
Whytransform?
addinganewfeatureofxicanmaketheproblemlinearlyseparable(Note:
featurespaceisofhigherdimension)新加入的X功能可以使问题线性可分(注:
高维特征空间中)
6.SVM小结
Trainingisequivalenttosolvingaquadraticprogrammingproblemwithasmanyvariablesasdatapoints
Fewparameterstoset
GeneralizationperformancecanbeestimatedaftertrainingbycountingthenumberofSVs
Providesasparseandcompactrepresentationofthedata
UnlikelytooverfitduetoSRMprinciple
Excellentperformanceonmanyrealworldproblems
训练是等价于求解一个二次规划问题,如数据点多的变量
更少参数需要设置
泛化性能可估计训练后通过计算SV的数量
提供了数据稀疏和简洁表示
不太可能过拟合由于SRM的原则
在许多现实问题中表现卓越的性能
7.多类SVM
For4-class(A,B,C,D)classificationproblem:
One-against-the-rest
SVM(A,(BCD));SVM(B,(ACD));SVM(C,(ABD));SVM(D,(
ABC))
Choosethebestbycomparingthefourresults
One-against-one
SVM(A,B);SVM(A,C);SVM(A,D);
SVM(B,C);SVM(B,D);SVM(C,D)
Choosetheonethatwinsmosttobetherightclass
Note:
kclassK(K-1)/2SVM
二叉树法,有向无环图法
基于竞赛的集成策略
第四章谱聚类
CompactnessConnectivity
总结
使用集群的算法从数据点矩阵的特征向量产生
获取数据表示,在低维空间,可以很容易地聚集
使用的方法的不同品种的特征向量(我们所看到的一个例子)
作者不同意:
使用哪一个特征向量
如何从这些特征向量集群
分区使用一次只有一个特征向量
使用过程递归
例如:
图像分割
使用第二(最小)特征向量确定最优分割
递归生成两个组,每个切
利用K特征向量(由用户选择了金)
直接计算的k-划分方法
实验一直被视为是“更好”
好消息:
简单而强大的图像分割方法。
灵活,易于应用到其他群集问题。
坏消息是:
高内存需求(使用稀疏矩阵)。
非常依赖于某个特定问题的规模因素。
第五章流型学习
LinearApproaches:
Principalcomponentanalysis.
Multidimensionalscaling.
NonLinearApproaches:
LocalLinearEmbedding
ISOMAP
LaplacianEigenmap.
1.Principalcomponentanalysis
Areasofvarianceindataarewhereitemscanbebestdiscriminatedandkeyunderlyingphenomenaobserved
Iftwoitemsordimensionsarehighlycorrelatedordependent:
Theyarelikelytorepresenthighlyrelatedphenomena
Wewanttocombinerelatedvariables,andfocusonuncorrelatedorindependentones,especiallythosealongwhichtheobservationshavehighvariance
Welookforthephenomenaunderlyingtheobservedcovariance/co-dependenceinasetofvariables
Thesephenomenaarecalled“factors”or“principalcomponents”or“independentcomponents,”dependingonthemethodsusedFactoranalysis:
basedonvariance/covariance/correlation
IndependentComponentAnalysis:
basedonindependence
在数据变化的地区,则可以在项目和重点基础最好的歧视现象观察
如果两个项目或尺寸高度相关或依赖:
它们很可能代表高度相关的现象
我们要结合相关的变量,并专注于不相关或独立的,尤其是那些沿着它具有高变异的观察
我们寻找相关的现象在一组变量的协方差观察/共同的依赖
这些现象被称为“因素”或“主要成分”或“独立成分,”这取决于使用因子分析的方法:
基于方差/协方差/相关
独立成分分析:
基于独立
PCA是用来确定最具代表功能的数据点。
它计算的P-维子空间,这样的子空间上的数据点预测已经在所有p维子空间的最大差异。
非迭代,全局最优解
主成分分析预测是从一个低维的基础上重建理想,但不得歧视的最佳...
利用线性判别分析(LDA)或Fisher的线性判别(FLD)的
特征脸试图尽量扩大在面对空间的训练图像分散,而Fisherfaces试图最大化类间散布的,同时尽量减少类内散布的。
2.线性逼近小结
原则
线性投影方法,以减少参数数目
转移的相关变量进入一个新的一套集互不相关的变量
数据映射到一个低维空间
无监督学习形式
属性
它可以被看作是原来的变量对现有旋转轴在空间的新定义的位置
新的坐标轴是正交的,代表最大变异的方向
应用:
在模式识别和检索许多环境中,我们有一个功能对象矩阵。
对于文本,其条款是他们的特点,文件是对象。
用户的意见...
这个矩阵可以有多余的维度。
可以使用低秩逼近。
如果条目丢失(例如,用户的意见),如果维度低,则可以恢复。
3.NonlinearDR–Isomap
建立邻居图G
对于G中每一对点,计算最短路径的距离----测地距离。
使用Dijkstra'sorFloyd的算法
应用核PCA给予C的测地距离的平方为中心的矩阵。
项目测试点作为核PCA的主成分。
Isomapforimages
BuildadatagraphG.
Vertices:
images
(u,v)isanedgeiffSSD(u,v)issmall
Foranytwoimages,weapproximatethedistancebetweenthemwiththe“shortestpath”onG
建立一个数据图G
顶点:
图像
(u,v)是边界值如果SSD(u,v)比较小
对于任何两个图片,我们近似得到它们之间“最短路径”G。
1.BuildasparsegraphwithK-nearestneighbors。
2.Inferotherinterpointdistancesbyfindingshortestpathsonthegraph(Dijkstra'salgorithm).
1。
构建K-近邻的稀疏图。
2。
通过在图上寻找最短路径推断其他内部点的距离。
(Dijkstra'salgorithm)
优点:
非线性
全局最优
保证渐近恢复真正的维数
缺点:
可能不稳定,依赖于数据的拓扑结构
随着N的增加,成对距离提供更好的近似测地线,但成本较高的计算
保留全局结构
一些自由参数
对噪声敏感,噪声边缘
计算昂贵(稠密矩阵本征减少)
4.LocalLinearEmbedding
LLE的是基于简单的几何直觉。
假设数据包含N个实值向量Xi,每个向量维度是D
每个数据点与它的邻居期望接近一个流形的局部线性补丁。
Findamappingtopreservelocallinearrelationshipsbetweenneighbors
找到一个映射使本地邻居之间保持线性关系
两个步骤
1.找到权重矩阵W的线性系数:
执行总结到一个约束。
2.寻找设计向量Y来最小化重建误差,必须同时解决对整个数据集
LLE算法:
分配邻居给每个数据点X
计算权重Wij的最佳线性,重建其邻居的数据点,解决受约束的最小二乘问题。
用Wij计算低维嵌入向量Y的最佳重购值。
实例
1。
获取每个低分辨率训练补丁的特征向量
2。
对于每一个测试补丁的特征向量,查找最近的K个训练补丁的特征向量。
3。
寻找最佳的权重,用K个邻近向量的加权和来表示每个测试补丁向量。
4。
使用这些权重值在高分辨率测试补丁下重建这些权重。
优缺点
没有局部极小,一个自由参数
增加的和快速的
简单的线性代数运算
可以扭曲全局结构
5.总结
原则
线性和非线性投射的方式来减少参数数目
转移的相关变量进入一套新的互不相关的变量
数据映射到一个低维空间
无监督学习形式
应用
PCA和潜在语义索引的文本挖掘
ISOMAP算法和非参数模型的图像变形
LLE和Isomap在光谱和彩色图像中的分析
图像空间和视频轨迹:
利用Isomap探索视频序列
用Isomap挖掘高维医学数据结构知识
第六章聚类分析
1.简介与分类
•什么是聚类分析?
–聚类:
数据对象的集合
•在同一个类中,数据对象是相似的
•不同类之间的对象是不相似的
–聚类分析
•一个数据集合分组成几个聚类
–聚类是一种无监督分类:
没有预定义的类
–典型应用
•作为一个独立的工具透视数据分布
•可以作为其他算法的预处理步骤
聚类算法类型
•层次聚类与非层次聚类
–自底向上与自上向下(凝聚与分裂)
–K-均值
•软聚类与硬聚类
–K-均值(硬聚类)
–模糊聚类(软聚类)
2.距离测度(差值)
3.马氏距离
4.相似度测度
5.匹配测度
6.类定义与距离
最近距离
最远距离
中间距离
重心距离
平均距离
离差平方和
7.K-近邻
基本思想
•–对k个近邻的贡献加权
•–根据这k个近邻相对xq的距离,将较大的权值赋给较近的近邻
一些说明
–对距离加权没有坏处,但会导致分类速度较慢
–如果对一个待分类的实例考虑所有的训练样例,我们称它为全局法
–如果对一个待分类的实例考虑最近的训练样例,我们称它为局部法
–K-近邻算法对应于一个假定:
一个实例的分类与在欧式空间中其附近的实例的分类相似
–它应用实例的所有属性来计算距离,而不是这些属性的一个子集,可能会导致维数灾难(curseofdimensionality)
–解决上述问题的一个方法是,对属性加权,即缩短那些与分类相关性较小的坐标轴,拉长那些与分类较相关的坐标轴,或者直接消除那些与分类最不相关的属性
8.层次聚类
•按最小距离原则不断进行两类合并。
•层级聚类法(HierarchicalClusteringMethod)(系统聚类法、谱系聚类法)
条件及约定
•待分类的特征矢量为
k次合并时的第i类
算法思想
首先将N个模式视作各自成为一类,然后计算类与类之间的距离,选择距离最小的一对合并成一个新类,计算在新的类别分划下各类之间的距离,再将距离最近的两类合并,直至所有模式聚成两类为止。
9.K均值
条件及约定
•设待分类的模式特征矢量集为
,类的数目k是事先取定的。
算法思想
该方法取定k个类别和选取k个初始聚类中心,按最小距离原则将各模式分配到k类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小。
k-均值是一种动态聚类方法
10.Isodata
特点:
启发性推理、分析监督、控制聚类结构及人机交互。
条件及约定:
设待分类的模式特征矢量为,算法运行前需设定7个初始参数。
算法思想:
在每轮迭代过程中,样本重新调整类别之后计算类内及类间有关参数,并和设定的门限比较,确定是两类合并为一类还是一类分裂为两类,不断地“自组织”,以达到在各参数满足设计要求条件下,使各模式到其类心的距离平方和最小。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 整理