开题报告用于模式分类的特征选取方法研究.docx
- 文档编号:25061812
- 上传时间:2023-06-04
- 格式:DOCX
- 页数:9
- 大小:23.12KB
开题报告用于模式分类的特征选取方法研究.docx
《开题报告用于模式分类的特征选取方法研究.docx》由会员分享,可在线阅读,更多相关《开题报告用于模式分类的特征选取方法研究.docx(9页珍藏版)》请在冰豆网上搜索。
开题报告用于模式分类的特征选取方法研究
哈尔滨理工大学
硕士学位论文开题报告
学院自动化学院
学科、专业控制工程
导师黄金杰教授
研究生张思慧
入学时间2010年月
开题报告日期2013年5月
论文题目用于模式分类的特征选取方法研究
研究生学院
说明
一、开题来源应包括下列主要内容:
1、课题来源及研究的目的和意义;
2、国内外在该方向的研究现状及分析(文献综述);
3、主要研究内容;
4、研究方案及进度安排,预期达到的目标;
5、预计研究过程中可能遇到的困难和问题以及解决的措施;
6、主要参考文献(应在30篇以上,其中外文资料不少于三分之一,参考文献中近五年内发表的文献一般不少于三分之一,且必须有近二年内发表的文献资料)。
二、开题报告字数应不少于5000字
三、开题报告时间最迟应于第三学期结束前完成
四、若本次课题的开题报告未通过,需在一个月内再次进行开题报告。
第二次学位论文开题报告仍未通过者,不能继续进行学位论文工作。
五、开题报告结束后,评议小组要填写《硕士学位论文开题报告评议结果》报院研究生教学秘书备案。
六、此表不够填写时,可另加附页。
(一)课题来源、研究目的及意义
1.课题来源:
自拟题目
2.研究目的及意义:
随着计算机技术和信息技术的飞速发展,对于计算机具有类似于人类认知能力的要求更加的迫切。
1956年由JohnMcCarthy在Dartmouth学会上提出“人工智能”概念以后,包括模式识别、机器学习、数据挖掘等人工智能学科得到了迅速发展。
近年来,模式识别技术已经成功运用到指纹识别、人脸识别、语音识别等领域,并且日趋成熟和完善,这一定程度上,要归功于前期对数据的优化处理。
模式分类的任务是训练一个合适的分类器,使其能够对一个给定的输入模式确定其类别。
模式分类器的性能主要是由样本规模、特征数目和分类器的复杂度三者之间的内在联系所决定的[1-4]。
现实中,由于人们在收集数据时往往缺乏对相关问题的先验知识,或者由于研究问题的不确定,为了尽可能无遗漏地记录下相应的过程,数据采集中常常包含了大量不相关和冗余的描述特征,形成高维的数据空间。
如果这些不相关的特征不被适当地“隔离”,将严重影响分类模型的复杂程度、训练速度和预测精度[3,4]。
因此,在模式分类过程中必须要对高维数据进行相应的降维处理。
特征提取技术技术是模式识别系统中最重要的特征降维技术,其目的就是在某种优化准则的基础上,求出高维模式下的低维特征,用于后继的分类和聚类等具体应用[5]。
随着时代发展,模式识别技术已经广泛运用于各个方面,如:
文本识别、医学诊断,天气预报、故障检测等,而特征选择是模式识别中最重要也是最关键的一个环节,因此,对于模式识别中的特征提取等问题的研究具有十分重要的现实意义和经济效益[6]。
(二)国内外在该方向的研究现状及分析
自上世纪60年代起,特征提取技术已经形成了一个系统的学科,诸如主成分分析法PCA(PrincipalComponentAnalysis)[7],线性判别分析LDA(LinearDiscriminantAnalysis)[8],独立成分分析ICA(IndependentComponentAnalysis)[9][10]以及结合一些相关的组合算法也在不断地发展和壮大之中。
经过半个多世纪的发展,特征提取技术现在趋于成熟和完善。
多年来,通过数学、信息学和计算机科学等领域的专家和学者的不懈努力,模式识别研究特别是对数据的特征提取已经取得了很大的进展,提出了很多特征提取方法。
依据是否利用了样本的类别信息,这些方法可可划分为有监督和无监督两种特征提取方法。
根据特征提取的变换方式是否是线性的,这些方法也可以分为线性和非线性的。
长期以来,线性模型一直是机器学习的主要模型。
典型的线性方法有:
Fisher线性判别分析(FisherLinearDiscriminantAnalysis,FLDA)和主成分分析(PricipleComponentAnalysis,PCA)[11]等,它们在很多应用领域取得了许多成果。
PCA方法是统计领域一种常用的线性变换方法,也称K-L变换[12]。
PCA方法是一种最小均方意义上的最优变换,它的目标是去除输入随机向量之间的相关性,以突出原始数据中的隐含特性。
其优势在于数据压缩以及对多维数据进行降维。
但PCA方法在对数据的处理过程中是根据观测数据的协方差矩阵进行计算的,只涉及到信号数据协方差矩阵,即二阶统计特性,并未考虑到信号数据的高阶统计特性,所以变换后的数据间仍有可能存在高阶冗余信息,实际上数据的高阶统计特性往往包含更重要的特征信息。
然而,在现实应用中很多数据并不是全局线性的。
一般的降维方法是建立在正态分布这一假设基础上的线性方法,往往不能满现实中的需要。
将传统的降维方法引入核函数推广到非线性领域。
其中典型集中包括支持向量机(SVM)[13]、核主成分分析(KPEA)[14][15]、核Fisher判别(KFLO)[16][17]等。
(三)主要研究内容
1.基于信息论的特征选取问题
要进行特征选择,首先要确定选择的准则,也就是如何评价选出的一组特征。
确定了评价准则后,特征选择问题就变成了从D个特征中选出使准则函数最优的d个特征的搜索问题d个特征(d 基于信息论的特征选取方法主要依据从每个特征中获取信息量的大小来进行特征选择,目前使用最广泛的信息测度可以分为熵度量和互信息度量。 使用熵度量的目的在于表明特征空间中特征变量的随机性,反应每个特征所包含的信息量。 使用互信息度量,一般来说表明特征之间的相关性,互信息越大说明特征之间的依赖性越强,否则说明特征越独立。 基于信息论的特征选取方法更注重于被选特征的独立性及特征之间的弱相关性,然而,由于特征选择过程中需要首先知道特征变量、目标变量所对应的先验概率密度函数,以及特征与目标之间的联合概率密度函数,而如何通过一定的估计方法得到以上的概率密度函数使该类方法在处理实际特征选取方法所面临的挑战,特别是当特征变量或目标变量呈现出连续性特点时,在使用具体的概率密度函数估计方法之前,则首先要寻找合适的离散化方法来处理这些连续性变量,因此这是一个难点。 2.特征提取中特征变换问题的研究 特征变换指从一组已有的特征通过一定的数学运算得到一组新的特征。 主要分为线性和非线性两大部分。 常用的线性变换包括: 主分量分析、线性鉴别分析等。 非线性变换包括: 核主成分分析、IsoMap、LLE等等。 线性变换技术是一种性能较优的降维技术,但很难改变原始数据的线性可分离性。 非线性变换在增强不同数据间的可分离性上具有优势,但在应用中对每个样本进行非线性变换会带来非常大的计算负担,同时也存在维数灾难问题。 维数灾难是指若要求期望与方差等指标满足一定精度,则需要样本数量随着维数的增加而呈指数增加。 而在使用和方法进行非线性映射,首先它不需要直接对样本进行非线性映射,这使得核方法的计算负担大大低于普通的非线性方法;其次,它能有效的规避维数灾难问题。 理论上讲,核方法可以将原样本数据变换到一个非常高维的空间,但是它所对应的特征方程中矩阵的维数仅为训练样本的个数;换言之。 虽然核方法本质上将数据变为高维空间,但它不需直接在高维空间中求解;其问题求解空间的维数仅为其训练样本个数。 实际上。 这正是核方法作为一种非线性方法能够克服维数灾难问题的关键。 核方法虽然本质上是一种基于非线性映射的非线性方法,但是其实现和问题求解只需要使用线性手段,计算中也只需要使用线性数值的手段。 (四)研究方案及进度安排,预期达到的目标 研究方案: 1.研究用于特征评价的信息测度准则,利用互信息测度构造用于特征评价的信息测度准则及其计算方法。 根据信息测度准则,研究相应的特征选取策略,获取最优特征子集。 2.然后利用统计学习与特征变换理论(这里我初步选用核空间变换的理论和方法),建立高维的特征空间到低维的特征空间之间的映射关系,在新的特征空间中实施特征提取。 3.基于上述特征提取算法进行数据集实验研究,使用UCI数据集进行验证,使用Matlab仿真进行性能测试 进度安排: 1、2013年1月—2013年3月: 查阅并搜集目前国内外现有的有关方面的书籍和资料,了解该领域的发展现状,并做出整理归纳。 2、2013年4月—2013年6月: 确定论文切入点,仔细的研究弄清楚几种比较典型的特征提取方法,同时了解并掌握各种方法的优势及不足。 3、2013年7月—2013年11月: 对当前的一些的特征提取方法,进行算法编写和程序调试,并选择几个数据集进行分类和MATLAB仿真实现。 4、2013年12月—2014年3月: 对某些特征算法进行重组或改进,并在数据集上验证,与原算法相比较,分析其优缺点。 5、2014年4月—2014年5月: 整理并组织材料开始撰写论文,准备答辩。 预期达到的目标: 通过对统计学习理论和特征选取的深入研究,给出高维特征空间下用于特征选取的特征评价信息测度准则的准确估计公式。 给出高维特征空间下基于核变换的特征变换优化方法。 针对各个算法进行MATLAB仿真验证,完成特征提取与模式分类算法的总体测试与评价。 (五)预计研究过程中可能遇到的困难和问题以及解决的措施 可能遇到的主要问题包括数学基础理论方面的问题、如何实现特征降维、如何避免维数灾难等 解决的措施包括和同学相互合作,互相借鉴,并多请教老师;利用互联网获取信息等;对于文献方面可以通过借鉴多种模式分类的先进思想,为设计识别算法提供思路。 (六)主要参考文献 [1]A.AhmadandL.Dey,“Afeatureselectiontechniqueforclassificatoryanalysis”,PatternRecognitionLetters,26 (1): 43-56,2005 [2]Yiu-mingCheung;HongZeng;LocalKernelRegressionScoreforSelectingFeaturesofHigh-DimensionalData.IEEETransactionsonKnowledgeandDataEngineering,21(12): 1798–1802,2009 [3]H.LiuandH.Motoda,FeatureSelectionforKnowledgeDiscoveryandDataMining.Boston: KluwerAcademicPublishers,1998 [4]I.GuyonandA.Elisseeff,“Anintroductiontovariableandfeatureselection”,JournalofMachineLearningResearch3(2003)1157-1182. [5]边肇祺,张学工.模式识别[M]: 第二版.北京: 清华大学出版社,2000: 2-3 [6]杨淑莹.模式识别与智能计算—Matlab技术实现: 北京: 电子工业出版社,2007: [7]KirbyM,SirovichL.ApplicationofKarhunen-Loeveprocedureforcharacterizationofhumanfaces[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1990,12 (1): 103-108 [8]BelhumeurPN,HespanhaJP,KrigmanHJ.Eig\enfacesvsfisherfaces: recognitionusingclassspecificlinearprojection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1997,19(7): 711-720 [9]CommonP.IndependentComponentAnalysis: Anewconcept[J].SignalProcessing,1994,36(3): 287-314 [10]AapoH,ErkkiO.IndependentComponentAnalysis: Algorithmandapplications[J].NeuralNetworks,2000,13(4-): 411-430 [11]HuangKG,MurrayFE.Entrepreneurialexperimentsinsciencepolicy: AnalyzingtheHumanGenomeProject[J].ResearchPolicy,2010,39(5): 567—582 [12]肖健华.智能模式识别方法[M].广州: 华南理工大学出版社,2006 [13]J.C.Burges.ATutorialonSupportVectorMachinesforPatternRecognition. BellLaboratories,LueentTeehnologies.1997 [14]DaoqiangZhang,SongcanChen,andZhi-Hua-Zhou.RecognizingFaceor ObjectfromaSingleImage: Linearvs.KernelMethodson2DPatterns. [15]SMika,BScholkopf,ASmola,etal,KernelPCAandDe-noisinginFeatureSpace[A].AdvantageinNeuralProcessingSystem[C].MITPress,1999 [16]SebastianM,GunnarR.JasonM,etal.Fisherdiscriminantanalysiswith Kernels[A].ProceedingsofIEEEInternationalWorkshoponNeural NetworksforSignalProcessing[C].MadisonWisconsin,August1999: 4148 [17]VolkerR,VolkerS.Nonlineardiscriminantanalysisusingkernelfunctions [A].InSollaSA,LeenTK,Muller,editors.Ad2vanceinNeuralInformationProcessingSystems12[C].Cambridge,MA: MITPress,2000: 568-574. [18]BURGESCJ.GeometryandInvarianceinKernelbasedMethods.InAdvanceinKernelMethods-SupportVectorLearning.Cambridge,1997[M].NewYork: MITPress,1999: 89-116. [19]张藕,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,3(2005),P23-24. [20]WANGL,XUEP,KAPLUKCHAN.IncorporatingPriorKnowledgeintoSVMforImageRetrieval[C].Proceedingsof17thInternationalConferenceonPatternRecognition,HongKong: 2004,981-984. [21]RASMUSSEN,CarlEdward,ChristopherKIWILLIAMS.GaussianProcessforMachineLearning.Boston: TheMITPress,2004: 131-154. [22]金忠.人脸图像特征抽取与维数研究(D).南京: 南京理工大学,1999. [23]YongXu,DavidZhang,ZhongJin,etal.AFastKernel-basedNonlinearDiscriminantAnalysisforMulti-classProblems.PatternRecognition,2006,39: 1026-1033 [24]Dubey,P.;Sinthupinyo,W.Newapproachonstructuralfeatureextractionforcharacterrecognition[J].CommunicationsandInformationTechnologies,2010,29(26): 946-949. [25]刘莉,陈秀宏,梁久祯.基于条件正定核的SVM人脸识别[J].计算机工程与应用: 2010,46(33): 178-181. [26]CHAUDHARIUV,NAVRATILJ,MAESSH,Multi-grainedmodelingwithpatternspecificmaximumlikelihoodtransformationsfortext-independentspeakerrecognition[J],IEEETransactiononSpeechandAudioProcessing,2003,11 (1),61-69 [27]盛立东.模式识别导论.北京邮电大学出版社.2010.8. [28]李毅,徐守时.基于支持向量机的遥感图像舰船目标识别方法[J].计算机仿真: 2006,23(6): 180-183. [29]伍忠东,高新波,谢维信,基于核函数的最大间隔聚类算法,清华大学学报(自然科学版)2002年第01期. [30]LinT,ZhaHB.Riemannianmanifoldlearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2008,30[5]: 796-809. [31]WeinbergerKQ,SaulLK.Unsupervisedlearningofimagemanifoldsbysemidefiniteprogramming[J].IntJComputvision,2006,70 (1): 77-90. [32]陈杰.MATLAB宝典.电子工业出版社,2007 [33]刘莉,陈秀宏,梁久祯.基于条件正定核的SVM人脸识别[J].计算机工程与应用: 2010,46(33): 178-181. [34]VAPNIKVN.TheNatureofStatisticalLearningTheory[M].NewYork Springer-Verlag,1995: 28,5,15,30-32. [35]贾沛.特征选择技术研究[D].华中科技大学硕士论文,2003. [36]M.DashandH.Liu.FeatureSelectionforClassification.IntelligentDataAnalysis,Elsevier,1997,1(3). [37]FRIESST,CRISTIANININ,CAMPBELLC.TheKernel-Adatron: AFastandSimpleLearningProcedureforSupportVectorMachines[C].InProceedingsoftheFifteenthInternationalConferenceonMachineLearning,Madison,1998: 188-196. [38]刘波,文忠,曾涯.MATLAB信号处理1.北京: 电子工业出版社,2006 [39]M.DashandH.Liu.FeatureSelectionforClassification.IntelligentDataAnalysis,Elsevier,1997,1(3). 哈尔滨理工大学 硕士学位论文开题报告评议结果 硕士生姓名 导师 入学时间 开题报告日期 院、系 自动化学院 学科、专业 控制工程 论文题目 用于模式分类的特征选取方法研究 导师或指导小组对开题报告书面材料的审查意见: 导师签字: 年月日 学科评审小组意见(包括对论文选题、文献综述、实施方案及可行性的评议) 对开题报告的修改意见: 对开题报告的评审结果(在相应栏内划“√”): 通过□不通过□ 评审小组成员: 组长(签字): 年月日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 开题 报告 用于 模式 分类 特征 选取 方法 研究