一种基于生物数据的多层关联规则挖掘算法硕士学位论文 推荐.docx
- 文档编号:9006069
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:52
- 大小:282.08KB
一种基于生物数据的多层关联规则挖掘算法硕士学位论文 推荐.docx
《一种基于生物数据的多层关联规则挖掘算法硕士学位论文 推荐.docx》由会员分享,可在线阅读,更多相关《一种基于生物数据的多层关联规则挖掘算法硕士学位论文 推荐.docx(52页珍藏版)》请在冰豆网上搜索。
一种基于生物数据的多层关联规则挖掘算法硕士学位论文推荐
硕士学位论文
一种基于生物数据的多层关联规则
挖掘算法
AThesisSubmittedinfulfillmentoftheRequirementsfortheDegreeofMasterofEngineering
AnAlgorithmforMiningBiologicalData
MultilevelAssociationRules
Candidate:
ZhangPing
Major:
ComputerSoftwareandTheory
Supervisor:
Prof.LuYansheng
HuazhongUniversityofScience&Technology
Whuhan430074,P.R.China
June,2007
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。
对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到,本声明的法律结果由本人承担。
学位论文作者签名:
日期:
年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:
学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□,在_____年解密后适用本授权书。
不保密□。
(请在以上方框内打“√”)
学位论文作者签名:
指导教师签名:
日期:
年 月 日 日期:
年 月 日
摘要
数据挖掘是从大量数据中发现潜在的、有趣的知识的过程,是解决“数据丰富,知识贫乏”状况的有效方法。
关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项重要研究内容,在现实生活中有着广泛的应用。
研究表明,关联规则挖掘技术是寻找基因间关系的有效手段;但现有算法未针对高通量生物数据的特点进行优化,而存在着效率低下、规则缺乏生物学意义等缺点。
与单层关联规则挖掘相比,多层关联规则能够提供更加丰富、更具普遍意义的知识;选用合理的概念层次结构与多层关联规则挖掘算法,能够更好的适应生物数据挖掘的需要。
已有的多层关联规则挖掘算法如Cumulate算法、ML_T2L1算法,都是通过对Apriori算法进行扩展得到的。
这些算法仍采用候选生成并验证的方式得到频繁模式,导致了巨大的计算和I/O开销,使得效率较低。
选用GeneOntology完善的概念层次结构,通过对FP_Growth算法进行扩展,获得了一种优化的生物数据多层关联规则挖掘算法MAGO-FP。
MAGO-FP算法采用的扩展措施如下:
(1)在扫描数据库的过程中通过把每个项的全部祖先加入到事务中对每条事务进行扩充,该措施能够确保得到多层关联规则;
(2)通过及时删除概念层次树中不是频繁项的祖先项来压缩搜索空间,提高挖掘效率;(3)避免产生冗余的频繁模式。
性能实验表明MAGO-FP算法是正确的,并继承了FP_Growth算法运行效率高的优点。
应用MAGO-FP算法分析了一组由S.cerevisiae酵母菌cDNA微阵列芯片产生的实验数据,发现了一些候选关联规则。
并针对其中一些重要的关联规则,通过相关文献证实了其真实性,表明该算法在基因表达分析、基因调控网络等研究中具有一定的应用价值。
关键词:
数据挖掘,多层关联规则,基因本体论,MAGO-FP算法
Abstract
Dataminingisaprocesstoreveallatentandinterestingknowledgefrommassivedata,andaneffectiveapproachtosolvetheproblemof"richdataandpoorknowledge".Associationrulesminingcanrevealinterestingcorrelationsamongitemsetsfrommassivedata.Itisanimportantsubjectofdataminingandiswidelyusedinreallife.
Recentstudieshaveprovedthatassociationrulescanrevealtheinteractionsbetweengenes,showingpatternsthatmaynothavebeenidentifiedusingtraditionalclusteringmethods;butexistingalgorithmsstillhavesomeshortcomings.Theproposedalgorithmsforminingmultilevelassociationrules,suchasCumulatealgorithmandML_T2L1algorithm,arebasedonApriorialgorithm.Thesealgorithmsstilladopt"candidategenerateandtest"methodtogetfrequentpatternswhichcauselargecostincomputingandI/O;sotheyareinefficient.
ImprovedfromFP_Growthalgorithm,MAGO-FP,anoptimizeddataminingtechniquetodiscoverthemultilevelassociationrulesfromgeneexpressiondataandtheconcepthierarchyofGeneOntology(GO)hasbeenproposed.ThefollowingmeasuresareappliedtoexpandFP-Growthalgorithm:
(1)Expandingeverytransactionbyaddingallancestorsofeachitemduringtheprocessofscanningthedatabase.Thismeasureensuresthatwecangetmultilevelassociationrules;
(2)Deletingtheancestorsthatarenotfrequentitemsintimetocompresssearchspaceandenhancetheefficiencyofmining;(3)Avoidinggeneratingredundantfrequentpatterns.ThemultilevelassociationrulesminingalgorithmcanfigureouttherelationsbetweenGOtermsbysummarizingthegeneswiththehierarchyofGO.AnexperimentshowedthatMAGO-FPalgorithmgotthesameresultasCumulatealgorithmdidandinheritedthestrongpointofhighefficiencyofFP_Growthalgorithm.
Adatasetof300expressionprofilesforyeasthasbeenanalyzed;usingthealgorithm,wefoundnumerousrulesinthedata.Acursoryanalysisofsomeoftheserulesrevealsnumerousassociationsbetweencertaingenes,manyofwhichmadesensebiologically,otherssuggestingnewhypothesesthatmayworthofbeingfurtherinvestigated.Thealgorithmcouldbeusedtoanalyzegeneexpressionprofilesanduncovergenenetworks.
Keywords:
DataMining,MultilevelAssociationRules,GeneOntology,MAGO-FPAlgorithm
目录
摘要I
AbstractII
1绪论
1.1研究背景与意义
(1)
1.2关联规则挖掘研究进展
(2)
1.3生物数据关联规则挖掘的基本步骤(11)
1.4论文组织结构(14)
2关联规则挖掘算法
2.1关联规则的定义和相关概念(15)
2.2两种经典的关联规则挖掘算法(17)
2.3多层关联规则的定义和相关概念(25)
2.4两种经典的多层关联规则挖掘算法(28)
2.5小结(31)
3GeneOntology结构下优化的多层关联规则挖掘算法
3.1基于Apriori算法的多层关联规则挖掘算法的局限性(32)
3.2基因本体论(GeneOntology)及其概念分层结构(32)
3.3MAGO-FP算法(39)
3.4小结(44)
4MAGO-FP算法的实验分析
4.1实验平台与过程(45)
4.2性能优势分析(45)
4.3实验结果与分析(46)
4.4小结(48)
5结论(50)
致谢(51)
参考文献(52)
附录1(攻读学位期间发表论文目录)(60)
1绪论
1.1研究背景与意义
生命科学近年来获得突破性进展[1],随着生物学和医学的迅速发展,生物数据呈指数级增长,无论是在数量上还是在质量上都极大的丰富了生命科学的数据资源,提供了揭开生命奥秘的数据基础。
然而生物数据种类丰富,高通量,维数高,本质上具有异质性与网络性,远远超出传统的分析方法的能力和速度,其处理、挖掘、分析和理解日益迫切。
如何分析这些具有丰富内涵的数据并从中获得关生物结构和功能的信息,从中得到对人类有益的信息,是生物研究的瓶颈,是当前研究所面临的一个严峻挑战。
生物信息学是在此背景下发展起来的综合运用生物学、数学、信息学以及计算机科学等诸多学科理论方法的崭新交叉学科,是在生命科学的研究中,以计算机科学知识为辅导工具对生物信息进行储存、检索和分析的科学,是当今生命科学和自然科学的重大前沿领域之一。
它包含两方面的内容,一方面是对海量数据的搜索、管理、服务,即“管好数据”;另一方面从中发现规律,即“读懂”数据。
随着人类基因组计划的完成,生物信息学的研究重点已经从开始的序列分析、数据库查询逐渐向生物信息的挖掘、表达、数据多样性分析的方向发展,高通量实验数据分析成为目前生物信息学研究的热点和重点。
这些数据是通过一些高通量实验测量技术得到的,往往包含着几千个基因或基因片断和几十个属性。
高通量实验数据,无论是转录水平上还是蛋白质水平上,其中都蕴含着丰富的生物学知识,可以帮助我们理解基因、理解生物、理解细胞等等,例如某疾病是由什么基因引起的、细胞是处于正常还是恶化状态、药物对肿瘤细胞是否有效等。
由于越来越多数据得以公开,人们迫切希望通过数据挖掘技术在这些具有丰富内涵的海量数据中获得有益的信息。
对高通量实验数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一,也是基因组学、蛋白质组学的相关实验技术能够在生物医学领域中广泛应用的关键原因之一,它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。
数据挖掘[2]是新兴的一种科学计算技术与数据分析方法,它能够有效地从存有海量信息的数据库中提取隐含的、事先未知的潜在的和有用的信息和知识,经过多年的研究与发展,它已经成为一项很重要的数据分析工具。
作为一种以数据库、统计学和人工智能学为基础的新兴技术,数据挖掘给基因组学家们提供了前所未有的数据分析工具,为基因和蛋白信息的分析和提取提供了强有力的手段。
生物信息学、数据挖掘两者的结合,不论是现在还是将来,不论在理论上还是应用上都具有十分重要的意义。
因此生物数据挖掘日益重要,逐渐成为生物信息学研究领域的关键。
数据挖掘的常用技术中,聚类和分类技术已经成为基因鉴定、功能预测和基因表达分析等研究中最常用的手段。
而关联规则挖掘技术,作为分析海量数据库中项目间相关联系的重要技术,目前在生物学领域中并未得到广泛应用,相应的算法也不够成熟。
与数据挖掘的其他技术相比,关联规则更能挖掘出基因间的网络结构。
因为聚类和分类技术只能显示数据中基因群普遍的表现形式;而关联规则的频繁模式集不但可以显示出表现形式,其所产生的推论规则更可以描述基因间的联系;另外还有支持度和置信度参数可供生物学家作评价标准。
同时,关联规则能有效的克服聚类等分析技术只能将基因分到某一群,往往忽略了基因可能同时参与几个生化路径的缺点。
但是,目前的生物数据关联规则挖掘算法仍然存在着挖掘结果缺乏很强的生物学意义,候选规则冗余度高和挖掘计算效率低等不足,迫切需要针对生物数据的特殊性建立适用的关联规则挖掘算法。
本研究拟选用GeneOntology完善的概念层次结构[3],通过对FP_Growth算法[4]进行扩展,期望实现一种优化的生物数据多层关联规则挖掘算法:
能有效地克服传统的、基于Apriori[5]的多层关联规则挖掘算法的缺点,大幅提高挖掘效率;并且保证挖掘结果具有良好的生物学意义。
因此,拟提出的新算法预期在基因表达分析、基因调控网络等研究中具有广泛的应用价值。
1.2关联规则挖掘研究进展
关联规则挖掘是发现大量数据中项集之间有趣的关联或相关关系。
它是数据挖掘中的一个重要问题,其研究目标是找出满足最小支持度和最小可信度要求的关联规则。
关联规则是形如A
B的蕴涵式,其中A、B都是项集。
一般地,关联规则发现分为找出所有的频繁项集和由频繁项集产生强关联规则两个步骤,其中找出所有的频繁项集是关联规则算法的性能瓶颈。
因此绝大部分对关联规则算法的研究都集中在第一步,即如何在保证精度的基础上提高算法的运行效率,其中精度是指所找出的频繁项集的满足要求的程度。
1993年,Agrawal等提出了关联规则发现问题[6],同时提出了第一个频繁项集发现算法。
此后,在各种问题背景下,围绕着提高算法效率和结果的有用性(即用户对其感兴趣程度),研究者们提出了各种频繁项集发现算法[7,8]。
根据这些算法的研究重点不同,可将其分为基本频繁项集发现算法和增强频繁项集发现算法。
基本频繁项集发现算法致力于设计各种算法框架,高效地发现所有支持度大于某个不变的最小支持度的频繁项集。
但是它存在一些缺陷,比如所发现的频繁项集的有用性不高、发现的频繁项集数量过多、遗漏用户感兴趣的频繁项集等等。
增强频繁项集发现算法致力于提高发现结果的有用性,它通过引入概念层次结构、约束条件、可变支持度等方式来克服基本频繁项集算法的缺陷。
基本频繁项集发现算法是在单数据库、单概念层次和最基本要求(即使用相同的最小支持度发现所有频繁项集)的条件下发现频繁项集,它是其它更“高级”频繁项集发现算法的基础。
根据算法提出的时间和算法原理的不同,可将它们细分为Apriori算法出现之前的算法、Apriori类算法、基于分块的算法、基于采样的算法、新出现的高性能算法、基于最大频繁项集的算法和频繁封闭项集发现算法等。
其中后三类算法在分析强相关性数据时有明显的性能优势。
1993年,Agrawal等提出面向单个事务的频繁项集发现算法AIS[8]。
1995年,Houtsma等提出面向集合的频繁项集发现算法SETM[9]。
这是两种在Apriori算法出现之前的算法,它们根据每个事务中的已发现频繁项集和此事务中的其它项生成候选频繁项集,因此生成的非候选频繁项集数量很多,导致性能在各种情况下都不如Apriori算法,因此没有得到实际应用。
1994年,Agrawal等提出简单高效的频繁项集发现算法Apriori[5]。
该算法是基于广度优先搜索策略的,它利用了频繁项集的反单调性——频繁项集的子集必定是频繁的,通过在第(k-1)次扫描数据库后所得到的长度为(k-1)的频繁项集(简记为(k-1)-频繁项集,下同)生成k-候选频繁项集,然后在第k次扫描数据库时统计k-候选频繁项集的频繁度。
Apriori算法在巨型数据库上有良好性能。
但是,由于Apriori算法使用生成-检验循环的方式发现频繁项集,因此当数据库中频繁项集的密度比较大或最长频繁项集比较长时,Apriori算法不能避免所生成的候选频繁项集数量的指数爆炸,导致性能急剧下降;而且Apriori算法需要多次扫描数据库,造成沉重的I/O负担。
Agrawal等还发现,Apriori算法的最大运行时间开销阶段是刚开始的几次生成-检验循环,特别是发现2-频繁项集的循环,在此阶段生成了大量无效的候选频繁项集,限制了算法的效率。
大部分改进的算法把注意力集中在生成大项目集的优化上,主要有四种优化方法:
基于划分的方法,基于hash表的方法,减少对交易数据库的遍历次数,基于随机采样技术的方法。
1995年Savasere等设计了一个基于划分原理的Partition算法[10]。
Partition算法将原数据库逻辑地分成若干个互不相交的子数据库,其中每个子数据库都充分小,足以放入内存。
由于任何频繁项集至少在其中一个子数据库中是频繁的,所以可先分别发现每个子数据库中的频繁项集,然后将这些频繁项集汇总作为总候选频繁项集,再扫描一遍原数据库发现其中满足全局支持度条件的频繁项集。
由于每个子数据库可放入内存,所以发现其中的频繁项集不需要使用非常耗时的I/O操作,算法总体执行速度比较快。
另外,Partition算法还是一种本质并行算法。
不过,当子数据库数目增大时,Partition算法生成的无效总候选频繁项集数目快速增长,导致效率降低,因此Partition算法在较大数据库上的性能不如Apriori算法。
Brin等提出DIC(动态项集计数)算法,可视为一种串行化的Partition算法[11]。
采用哈希修剪技术在快速发现2-项集的过程中十分有效,Park等在这个方法的基础上引入哈希技术来改进产生2-项集的方法,提出Apriori算法的一种改进-DHP(直接乱散与删剪)算法[12]。
通过使用哈希技术,DHP比Apriori算法少生成一个数量级的2-候选频繁项集,从而提高了算法性能。
另外,由于所生成的2-候选频繁项集数量大大减小,所以DHP算法可在发现2-频繁项集之后就从数据库中删掉无需再考虑的事务和项。
AprioriTID算法[13]与Apriori算法的思路基本一致,不同在于:
前者在经过一次扫描数据库后,不再利用数据库来计算项目集的支持度,而利用候选项集来计算,因而减少了对交易数据库的遍历次数,提高了效率。
基于采样的技术,是先利用从数据库中抽取出来的采样,生成一些可能的规则,然后再针对数据库中剩余的部分验证这些规则。
Toivenen提出的随机抽样技术[14]可以节约相当可观的I/O代价,但是一个很大的缺点就是产生的结果不精确,即存在所谓的数据扭曲(dataskew)。
分布在同一页面上的数据时常是高度相关的,可能不能表示整个数据库中模式的分布,由此而导致的是采样5%的交易数据所花费的代价可能同扫描一遍数据库相近。
Lin和Dunham讨论了反扭曲(Anti-skew)算法来挖掘关联规则[15],他们引入的技术使得扫描数据库的次数少于2次。
Brin等[16]提出的算法使用比传统算法少的扫描遍数来发现频繁项集,同时比基于采样的方法使用更少的候选集,这些改进了算法在低层的效率。
具体的考虑是:
在计算k-项集时,一旦认为某个(k+1)-项集可能是频繁项集时,就并行地计算这个(k+1)-项集的支持度。
该算法需要的总的扫描次数通常少于最大的频繁项集的项数。
这里他们也使用了杂凑技术,并提出产生“相关规则”(CorrelationRules)的一个新方法。
Zaki等认为,在频繁项集发现过程中使用采样技术至少可提高一个数量级的速度,而且精度损失不多[17]。
1996年,Toivonen提出一种基于采样的频繁项集发现算法[18],其基本思想是对数据库进行采样,形成采样数据库;然后用较小的最小支持度发现采样数据库中的频繁项集S;再将S和它的负边界Bd-(S)合并,构成候选频繁项集S
Bd-(S);接着扫描一遍原数据库从S
Bd-(S)中发现所有频繁项集S/:
如果其中Bd-(S)包含频繁项集,那么说明原数据库中可能存在还未被发现的频繁项集,这时需要用公式S/=S/
Bd-(S/)叠代计算直到S/不再增大,然后将S/作为候选集再扫描一遍原数据库,发现所有被遗漏的频繁项集。
此算法在一般情况下只需扫描数据库一次,在最差情况下需要扫描两次。
1997年,Park等提出两个可调节精度的算法DS和SH[19]。
其中DS算法可视为DHP算法加入采样技术之后的推广。
DS和SH算法可用于为了提高效率而允许损失一些精度的场合。
Apriori类算法在数据库为高密度、长模式或低支持度等情况下性能急剧下降,针对这个问题,一些新的高性能频繁项集发现算法被提出来。
2000年,Agarwal等提出一种全新的高效算法TreeProjection[20,21]。
此算法构造一个词典树,并根据已发现的频繁项集,将数据库投影到一组精简的子数据库上。
由于词典树提升了检验候选频繁项集的效率,并且此算法还使用其它各种提高效率的技术,所以TreeProjection算法比Apriori算法的性能高一个数量级。
2000年,Han等提出一种不需要生成候选频繁项集的算法FP_Growth[4]。
此算法是基于深度优先搜索策略的:
首先扫描两遍数据库,生成信息高度压缩的高频模式树,该树中仍保留了项集的关联信息;然后在其上递归生成条件高频模式树,同时找出所有频繁项集。
由于此算法不需要生成候选频繁项集,避免了Apriori类算法本质具有的候选频繁项集数量指数爆炸情况,对于挖掘长的和短的频繁模式,它是有效和可伸缩的,并且大约比Apriori算法快一个数量级。
但Apriori算法对空间的需求比较低,对数据库规模的伸缩性要好于FP_Growth算法。
两者各有所长。
如果一个频繁项集不是其它频繁项集的真子集,那么称此频繁项集为最大频繁项集。
最大频繁项集集合的每一个元素的所有子集的集合的并集就是完整的频繁项目集集合,但每一个频繁项目集的支持度不能由最大频繁项集推导出来,因此还需要对数据库扫描一次并进行计数,这一趟扫描的时间花销
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种基于生物数据的多层关联规则挖掘算法硕士学位论文 推荐 一种 基于 生物 数据 多层 关联 规则 挖掘 算法 硕士学位 论文