第5讲 免疫机器学习Word格式.docx
- 文档编号:15945169
- 上传时间:2022-11-17
- 格式:DOCX
- 页数:15
- 大小:105.69KB
第5讲 免疫机器学习Word格式.docx
《第5讲 免疫机器学习Word格式.docx》由会员分享,可在线阅读,更多相关《第5讲 免疫机器学习Word格式.docx(15页珍藏版)》请在冰豆网上搜索。
机器学习的本意是使机器象人类一样思考和学习,但目前的机器学习研究在计算机科学领域主要以算法研究为主,在40年代的基于优化的机器学习理论发展到50年代-80年代的基于符号的机器学习理论,逐步形成了几种主要的机器学习方法,包括规则归纳、决策树、范例推理、贝叶斯网络、遗传算法、神经网络、科学发现等,以及基于粗集的学习理论和基于统计的学习理论、序列学习理论、强化学习理论等[1],虽然其中多数方法和理论目前都是用于解决一些特定问题,所有这些方法和理论都是向达到真正的机器学习和智能目标努力。
机器学习涉及数学、认知科学、心理学、计算机科学等多个学科,广泛用于软件工程、优化、数据挖掘(或者知识发现)、机器人、模式识别等领域。
其中不少方法都是受自然启发的,如遗传算法和神经网络。
如今,免疫系统的独特的学习能力也不断受到关注。
基于免疫系统发展的学习方法已经成为机器学习领域的研究主题。
同免疫优化算法一样,基于免疫学理论和免疫系统机制发展的学习算法是人工免疫系统的重要内容,也是计算智能的新内容。
进化计算、人工神经网络和人工免疫系统在学习方面表现出一些共性,但又有各自的特点。
免疫系统的适应、学习和记忆能力不仅适用于优化等领域,也适合于开发用于机器学习的人工免疫系统,虽然我们目前有许多机器学习方法和理论,但没有一种是完善的和万能的,目前只能是互补,所以才有了人工免疫机器学习方法的发展空间。
目前的人工免疫机器学习方法主要是在免疫网络、克隆选择等免疫学理论上发展而来的,也有基于阴性选择机制的学习方法,但都没有系统的理论。
本讲根据这几个方面,结合各自具体的应用来阐述有关内容。
5.1免疫无监督学习方法
目前,无监督学习主要指的是聚类方法。
在人工免疫系统领域,早期的研究工作是Hunt和Cooke描述的人工免疫系统模型[2],这是一个免疫系统启发的进化学习系统。
其目的是研究对机器学习和解决问题有用的免疫系统关键特征,用于简单的模式识别和DNA序列标记识别。
Timmis等在人工免疫系统模型基础上,提出了人工免疫网络模型(artificialimmunenetworkmodel,AINE)[3],用于无监督学习,主要提出了B细胞刺激水平和网络亲合力阈值(NAT)思想。
在AINE的基础上,最成功的基于免疫网络理论的无监督学习算法是资源受限人工免疫系统(RLAIS)[4]。
这个算法不仅利用了免疫网络动力学,也结合了克隆选择原理,算法中引入形态空间的概念。
模型定义了人工识别球ARB(ArtificialRecognitionBall)来代表B细胞。
ARB基于刺激水平(stimulationlevel)对B细胞进行分配,而当ARB不再需要B细胞时,该ARB将被去除,由此实现有效的群体控制。
通过将相似的ARB集中在一起。
该模型在表达了被学习数据模式的稳定结构基础上,具有继续学习的能力。
资源的竞争给系统加入适当的进化压力,确保只有最适应的细胞生存,最终对这些生存下来的细胞进行克隆变异,并通过一定可视化方法把提呈的抗原数据聚类反应和表示出来。
该网络模型和算法具有快速、稳定地进行数据聚类分析的能力。
资源有限人工免疫网络(RLAIS)模型也存在很多不足之处:
在网络中,系统拥有最多B细胞数目是预先设定的,其资源有限是人为定义的,不是通过系统自制的平衡;
为了控制网络的规模,B细胞限制在一个水平上,人工识别球ARB必须被压缩,造成网络过早收敛,系统解的多样性受到了限制。
受这个工作启发,Knight提出了一个多层学习系统,包括自由抗体层、B细胞层、记忆细胞层[5]。
在该算法中,不需要预先将细胞植入系统,系统可以进化自己的数据表示。
表示的核心是实际的B细胞层,它产生自由抗体以及记忆细胞。
最终,利用得到的冗余记忆细胞层进行数据分析。
这个工作的价值在于它研究了稳定的免疫记忆结构产生模式,可在其它免疫启发的算法中应用。
文献[6]基于AINE提出了人工免疫网络算法AIN。
这个算法与AINE在许多方面都很相似。
算法从一组抗体开始建立网络,每个抗体都是n维实数向量,虽然作者认为AIN将B细胞简化为一个抗体,但实际上没有改变。
算法结构与AINE也一样。
文献[7]中将人工免疫网络用于电子商务客户数据聚类,得到比传统方法更好的结果。
按照文献[3]的工作,MarkNeal研究将免疫网络原理用于连续数据学习[8],设计了基于免疫网络的连续学习算法-自稳定人工免疫系统(SSAIS),与RLAIS最大的改进这处在于不再受网络资源有限的限制,每一个ARB可以自己控制各自的i规模大小,可产生亚稳定记忆系统。
文献[9]中,Hart提出了SDM(sparsedistributedmemories)与免疫记忆结合的自组织(self-organizedSDM,SOSDM,解决AINE的伸缩能力,以及处理动态数据的性能问题。
Bentley和Timmis于2004提出分形免疫网络[10],细胞之间的相互作用产生在细胞因子过程,分形细胞因子表示为传输FRS的一次克隆,由分形接受器(FRS的一个克隆子孙)接受信号和计算相关程度,如果相似度在设定的阀值内,传输FRS就要受到刺激,受到刺激的传输FRS将以固定的概率进行克隆,将产生下一代子孙,并重新整合免疫网络中,免疫网络的动力学控制与SSAIS模型相同。
在分析上述方法的缺点基础上,Nasraous在免疫网络以及简化中引入模糊技术,主要的工作是将模糊数学引入RLAIS模型,使人工识别球并不是影响网络内的所有其它个体,每个ARB都有自己的作用域,并提出了模糊识别球的概念。
所提出的算法具有更大伸缩性[11]。
该算法结合了其他聚类技术,对噪声数据具有鲁棒性,并且允许一定范围的动态估计,得到的结果比RLAIS更好。
算法应用于网络连接数据的用户轮廓挖掘、Web页面数据挖掘以及数据聚类[12][13]。
但算法要求存储所处理全部数据集合和所有网络相互作用亲合力,这限制了算法的性能,只能对付小规模数据集合聚类问题。
Nasraoui等在2003年提出了TECNO-STREAMS模型[14],它是为了解决WEB数据挖掘技术,引入了动态加权B细胞(D-W-B-cell)概念,对模糊AIS做了进一步的改进。
AINE及后续改进算法使这类免疫监督算法不断完善。
实际上,基本围绕以下问题进行改进和完善:
1.输入数据和网络如何表示;
2.网络模式构成和网络连接方式;
3.网络如何初始化;
4.如何评价刺激水平和如何评价对刺激水平有作用的初始化影响:
抗原刺激,邻近刺激和邻近抑制;
5.刺激水平如何影响网络发展;
6.如何决定是否克隆一个节点和如何决定克隆率;
7.群体控制;
8.终止条件;
9.节点如何变异。
10.如何解释最后的网络,区分训练阶段和检测阶段。
这些问题一直是在从免疫系统获得启发的努力中的问题。
伸缩性、自组织能力、对噪声的鲁棒性、对动态数据的连续学习能力是这类方法追求的一般特征。
与RLAIS同时,deCastro研究了aiNet[15],aiNet的主要功能就是用一个小规模的“内镜像”记忆网络映射源输入数据集,从而达到将数据压缩的目的,同时从数据集合抽取相关信息,比如数据固有聚类的空间分布。
aiNet内的网络细胞数据在网络初始化阶段与输入数据在同维空间表示,没有实现维数简化。
当代表训练数据的抗原输入时,网络中的抗体要对抗原进行竞争识别,通过以抗原-抗体之间的亲合力为标准,竞争成功的抗体就会导致网络活化,该抗体进行扩增和克隆选择;
网络以抗体-抗体之间的亲合力为标准,清除多余的低亲合力免疫细胞来抑制网络的规模。
随着算法运行和网络进化,基于免疫网络亚动力学思想,网络规模被有效控制,最终只用较少记忆细胞数据反应输入的大量抗原数据,免疫网络也能记住以前遇到的情况。
免疫网络思想在该算法中体现得更完全,也结合了克隆选择和亲合力成熟的概念。
结合统计和图论方法,在一些无监督学习问题上算法表现得很成功。
目前为止,仍然是该领域的标志性方法。
在AINE和aiNet基础上发展的免疫学习方法都归于基于免疫网络的模型。
基于aiNet改进的模型aiNet层次模型前者不仅可发现基因数据中的主类[16],也可发现子聚类。
其他改进的aiNet则用于优化等问题[17]。
Wierzchonetal将AINE和aiNet结合起来[18],强调自组织能力。
后续仍有许多方法是aiNet和RLAIS方法基础上的改进或启发,或者将上述方法用于生物信息学[16][19]、数据挖掘[20]、文本聚类[21][22][23]等方面。
图14.1给出了以Hunt和Cooke的JISYS为基础的免疫无监督学习的发展过程。
图5.1主要的免疫无监督学习方法发展线索
上述人工免疫聚类方法都是基于数据压缩和信息约简原理。
数据内映像是基于数据紧凑和具有可解释的形式的假设,对可靠的数据分析固然很重要,但内映像之间的相对距离由于数据密度信息的分布不确定性而不能做到恰好对应原始数据点之间的相对距离,从而影响聚类质量。
针对上述问题,文献[24]提出适应性半径免疫算法,利用克隆扩增和网络抑制以及数据中的密度信息得到更准确的数据表示。
此外,还有一些研究将免疫优化算法与传统聚类方法的结合方面,以期改进传统聚类方法的性能,如文献提出免疫K均值聚类[25]、免疫C均值聚类[26]、基于克隆选择算法的免疫监督聚类[27]。
文献[28]提出了基于免疫细胞进化分离的聚类算法。
5.2免疫网络聚类算法
5.3免疫监督学习
5.3.1免疫分类算法研究
在基于免疫系统开发的分类技术方面,Farmer、Perelson最早证明了分类器和独特型免疫网络模型之间的相似性[54][55]。
这个发现促使许多计算机和研究认知方面的科学家研究人工免疫模型。
最早将独特型网络思想应用到机器学习问题的工作是Cooke和Hunt进行的[56][57][58]。
他们开发了一个人工免疫系统模型分类DNA分子,但其分类性能不如传统的人工神经网络。
1996年他们改进了该模型,试图建立一个基于案例推理的人工免疫系统[56][58]。
1999年他们进一步解决了Hunt与Cooke模型的缺点,并用于数据挖掘,开发了抵押欺诈信息模式检测系统JISYS[59]。
文献[60]描述了一种使用协同进化算法进化“自己”模式,并将其作为分类器,建立用于网络文本分类的分类器系统。
文献[61][62]提出了Pittsburg免疫分类器系统,利用二次免疫应答的简单计算模型提高Pittsburg类型分类器的能力,在时间相关优化问题上验证了所提出分类器的效果,并在以后多次改进。
Potter描述了使用了协同进化遗传算法AIS模型进化抗体[63],用于概念学习,并在人工数据集合和议会投票记录数据进行分类能力测试,取得较好效果。
分类技术从机器学习角度看,属于监督学习技术。
人工免疫系统在监督学习领域已有许多应用。
Carter在2000年提出了一个监督学习模型[64]。
这个监督学习算法基于免疫系统机制,实现模式识别和分类。
系统称为Immunos_81,利用用T、B细胞、抗体和它们之间的相互作用等多种机制。
人工T细胞控制B细胞群体或克隆的产生,为了识别未知数据项而竞争。
当产生与数据具有最高亲合力的克隆时发生识别,这样来分类未知数据。
在文献[64]中,Immuno-81与几个广泛使用的机器学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5讲 免疫机器学习 免疫 机器 学习