深度学习的基本理论与方法PPT文件格式下载.pptx
- 文档编号:15038531
- 上传时间:2022-10-27
- 格式:PPTX
- 页数:88
- 大小:12.03MB
深度学习的基本理论与方法PPT文件格式下载.pptx
《深度学习的基本理论与方法PPT文件格式下载.pptx》由会员分享,可在线阅读,更多相关《深度学习的基本理论与方法PPT文件格式下载.pptx(88页珍藏版)》请在冰豆网上搜索。
借助于DeepLearning算法,人类似乎找到了一种可以处理“抽象概念”这个亘古难题的方法。
过热的研究现状2012年6月,纽约时报披露了GoogleBrain项目。
用16000个CPUCore的并行计算平台训练一种称为“深度神经网络”(DNN,DeepNeuralNetworks)的机器学习模型(内部共有10亿个节点),在语音识别和图像识别等领域获得了巨大的成功。
项目负责人之一Andrew称:
“我们没有像通常做的那样自己框定边界,而是直接把海量数据投放到算法中,让数据自己说话,系统会自动从数据中学习。
”另外一名负责人Jeff则说:
“我们在训练的时候从来不会告诉机器说:
这是一只猫。
系统其实是自己发明或者领悟了“猫”的概念。
”过热的研究现状2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。
据报道,后面支撑的关键技术也是DNN,或者深度学习(DL,DeepLearning)。
视频链接过热的研究现状2013年1月,在百度年会上,创始人兼CEO李彦宏高调宣布要成立百度研究院,其中第一个成立的就是“深度学习研究所”(IDL,InstitueofDeepLearning)。
把GooleBrain的带头人Andrew(吴恩达)挖到百度。
不过,今年年初,爆出百度在ImageNet竞赛中多次提交竞赛结果,有作弊行为,而被取消竞赛资格。
过热的研究现状拥有大数据的互联网公司争相投入大量资源研发深度学习技术。
企业很喜欢这种方法,因为它像个黑盒子,不管算法具体内容是什么,只管往里扔数据就可以,并且效果还很好。
高校研究所的研究人员也纷纷加入Deeplearning的研究热潮中。
CVPR,ICCV等模式识别权威会议,也被Deeplearning占据了半壁江山。
研究从大有从算法研究,走向数据制霸的趋势。
谁有更大数据,有更大型的设备,就往往能取得更好的结果。
与此同时,Deeplearning的发明者却多次在公开场合提及:
“Deeplearning”已经研究过热,人们对它的期望值过高。
概述深度学习:
一种基于无监督特征学习和特征层次结构的学习方法其名称有:
深度学习特征学习无监督特征学习动机良好的特征表达,对最终算法的准确性起了非常关键的作用;
良好的特征表达,对最终算法的准确性起了非常关键的作用;
识别系统主要的计算和测试工作耗时主要集中在特征提取部分;
特征的样式目前一般都是人工设计的,靠人工提取特征。
Low-levelsensingPre-processingFeatureextract.FeatureselectionInference:
prediction,recognition传统的模式识别方法:
传统的模式识别方法:
动机为什么要自动学习特征实验:
LP-MultipleKernelLearning(MKL)多核学习是多特征融合的一个重要方向GehlerandNowozin,OnFeatureCombinationforMulticlassObjectClassification,ICCV09采用39个常用的不同的特征进行多特征融合,用来识别不同物体PHOG,SIFT,V1S+,RegionCov.Etc.在普通特征上MKL表现有限结论:
特征很关键,目前人工选择的特征很难有效融合。
动机为什么要自动学习特征机器学习中,获得好的特征是识别成功的关键目前存在大量人工设计的特征,不同研究对象特征不同,特征具有多样性,如:
SIFT,HOG,LBP等手工选取特征费时费力,需要启发式专业知识,很大程度上靠经验和运气是否能自动地学习特征?
中层特征中层信号:
动机为什么要自动学习特征连续平行连接拐角物体部件:
他们对于人工而言是十分困难的,那么如何学习呢?
更加复杂的信号:
动机为什么要自动学习特征一般而言,特征越多,给出信息就越多,识别准确性会得到提升;
一般而言,特征越多,给出信息就越多,识别准确性会得到提升;
但特征多,计算复杂度增加,探索的空间大,可以用来训练的数据在但特征多,计算复杂度增加,探索的空间大,可以用来训练的数据在每个特征上就会稀疏。
每个特征上就会稀疏。
结论:
不一定特征越多越好!
需要有多少个特征,需要学结论:
需要有多少个特征,需要学习确定。
习确定。
动动机机为什么采用层次网络结构为什么采用层次网络结构人脑视觉机理人脑视觉机理1981年的诺贝尔医学奖获得者DavidHubel和TorstenWiesel发现了视觉系统的信息处理机制发现了一种被称为“方向选择性细胞的神经元细胞,当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃动动机机为什么采用层次网络结构为什么采用层次网络结构人脑视觉机理人脑视觉机理人的视觉系统的信息处理是分级的高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图抽象层面越高,存在的可能猜测就越少,就越利于分类动动机机为什么采用层次网络结构为什么采用层次网络结构视觉的层次性属性学习,类别作为属性的一种组合映射Lampertetal.CVPR09类别标签属性图像特征动动机机为什么采用层次网络结构为什么采用层次网络结构学习算法在一个什么粒度上的特征表示,才有能发挥作用?
就一个图片来说,像素级的特征根本没有价值。
例如下面的摩托车,从像素级别,根本得不到任何信息,其无法进行摩托车和非摩托车的区分。
而如果特征是一个具有结构性(或者说有含义)的时候,比如是否具有车把手(handle),是否具有车轮(wheel),就很容易把摩托车和非摩托车区分,学习算法才能发挥作用。
动动机机为什么采用层次网络结构为什么采用层次网络结构初级(浅层)特征表示高层特征或图像,往往是由一些基本结构(浅层特征)组成的不仅图像存在这个规律,声音也存在。
他们从未标注的声音中发现了20种基本的声音结构,其余的声音可以由这20种基本结构合成。
动动机机为什么采用层次网络结构为什么采用层次网络结构结构性特征表示在不同object上做training是,所得的边缘特征是非常相似的,:
动动机机为什么采用层次网络结构为什么采用层次网络结构浅层学习的局限浅层学习的局限人工神经网络(BP算法)虽被称作多层感知机,但实际是种只含有一层隐层节点的浅层模型SVM、Boosting、最大熵方法(如LR,LogisticRegression)带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)的浅层模型局限性:
有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。
深度学习20062006年,加拿大多伦多大学教授、机器学习领域年,加拿大多伦多大学教授、机器学习领域的泰斗的泰斗GeoffreyHintonGeoffreyHinton在在ScienceScience上发表论上发表论文提出深度学习主要观点:
文提出深度学习主要观点:
11)多隐层的人工神经网络具有优异的特征学习能力,)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
利于可视化或分类;
22)深度神经网络在训练上的难度,可以通过)深度神经网络在训练上的难度,可以通过“逐层逐层初始化初始化”(layer-wisepre-traininglayer-wisepre-training)来有效克)来有效克服,逐层初始化可通过无监督学习实现的。
服,逐层初始化可通过无监督学习实现的。
深度学习本质:
通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。
“深度模型”是手段,“特征学习”是目的。
与浅层学习区别:
1)强调了模型结构的深度,通常有5-10多层的隐层节点;
2)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。
与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。
深度学习好处:
可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。
深度学习vs.神经网络神经网络:
深度学习:
深度学习vs.神经网络相同点:
相同点:
二者均采用分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个回归模型。
不同点:
神经网络:
采用BP算法调整参数,即采用迭代算法来训练整个网络。
随机设定初值,计算当前网络的输出,然后根据当前输出和样本真实标签之间的差去改变前面各层的参数,直到收敛;
采用逐层训练机制。
采用该机制的原因在于如果采用BP机制,对于一个deepnetwork(7层以上),残差传播到最前面的层将变得很小,出现所谓的gradientdiffusion(梯度扩散)。
深度学习vs.神经网络神经网络的局限性:
1)比较容易过拟合,参数比较难调整,而且需要不少技巧;
2)训练速度比较慢,在层次比较少(小于等于3)的情况下效果并不比其它方法更优;
深度学习训练过程不采用BP算法的原因
(1)反馈调整时,梯度越来越稀疏,从顶层越往下,误差校正信号越来越小;
(2)收敛易至局部最小,由于是采用随机值初始化,当初值是远离最优区域时易导致这一情况;
(3)BP算法需要有标签数据来训练,但大部分数据是无标签的;
深度学习训练过程2006年,hinton提出了在非监督数据上建立多层神经网络的一个有效方法,方法是:
1)首先逐层构建单层神经元,这样每次都是训练一个单层网络。
2)当所有层训练完后,Hinton使用wake-sleep算法进行调优。
每次仅调整一层,逐层调整。
深度学习训练过程将除最顶层的其它层间的权重变为双向的。
向上的权重用于“认知”,向下的权重用于“生成”。
然后使用Wake-Sleep算法调整所有的权重。
让认知和生成达成一致,也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。
比如顶层的一个结点表示人脸,那么所有人脸的图像应该激活这个结点,并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。
深度学习训练过程wake-sleep算法:
11)wakewake阶段:
阶段:
认知过程认知过程,通过外界的特征和向上的权重(认知权重)产生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 基本理论 方法