基于基因表达谱的肿瘤识别方法的研究Word文档格式.docx
- 文档编号:22249281
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:47
- 大小:359.90KB
基于基因表达谱的肿瘤识别方法的研究Word文档格式.docx
《基于基因表达谱的肿瘤识别方法的研究Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于基因表达谱的肿瘤识别方法的研究Word文档格式.docx(47页珍藏版)》请在冰豆网上搜索。
首先利用修正后的信噪比公式对原始数据中的无关基因进行剔除,同时对保留下来的基因进行主成分分析,既可以实现有效的降维,同时便于计算;
然后引入支持向量机分类器,对提取的主成分进行学习训练,得到基于支持向量机的分类模型。
在此基础上,我们对算法进行了敏感性检验和稳定性检验。
2.2从分类的角度确定基因“标签”
相对于基因个数来说62个样本非常小,如果直接用于分类会造成小样本的学习问题。
我们用Relief算法为每个基因赋予一个权重,然后设定相应的阈值,高于这个阈值的基因被留下;
然后用留一交叉检验法来检验我们设定的阈值的合理性,通过检验不断地调整阈值,最终确定哪些基因被留下,而这些基因便是我们分类所依据的基因“标签”。
2.3基因表达谱中噪声模型的建立
基因表达谱中不可避免地含有噪声,对含有噪声的基因表达谱提取信息会产生偏差。
为了解决这个问题,我们分析发现GenbankAccname中含有存在重复数据的基因,运用方差分析来对这种基因的normal样本和cancer样本分别进行显著性检验,发现该种基因在同类样本间存在显著差异,进而推断其显著性差异并不直接作用于样本的分类,应予以剔除。
同时,在对第二问中得到的“基因标签”的检验过程中,发现来源于样本的噪声,故对这些样本进行去噪处理。
最后,应用第二问的模型对去噪后的数据重新进行运算,得到新的“基因标签”并对其进行检验。
2.4融入临床信息的诊断肿瘤确定基因标签的数学模型的建立
在确定某种肿瘤的基因标签时如能融入与临床问题相关的主要生理学信息,也许可以纠正现有研究中基因低水平表达、差异不大的表达被忽略的倾向。
我们利用问题三中经过降噪处理后的样本数据,利用最终筛选出的基因标签和所给数据中的APC基因和ras相关基因建立数学模型,希望能进一步提高肿瘤识别的正确率。
三、模型假设及符号说明
3.1模型假设
1、假设统计数据真实可靠,没有实验室误差。
2、假设样本具有普遍性,此样本对分类效果没有特别影响。
3、假设与一种肿瘤相关的突变基因数目很少。
3.2符号说明
----分类特征基因集合
----算法筛选出的基因数
----Relief算法中的阈值
四、模型的建立与解答
由样本数据可知,有些基因的标号相同(即属于同一种基因),故取这些基因表达水平的均值,合并为一种基因。
问题一:
寻找与肿瘤相关的突变基因的分类因素
由于基因表示之间存在着很强的相关性,且相对于较少的样本数而言,过多的基因数既无益于样本类型的判定,也会对以后统计方法的使用产生不良影响。
因此,在分析样本之前需要对基因进行筛选。
本文引入修正后的信噪比公式作为筛选依据来衡量基因表达差异的显著程度;
然后利用主成分分析将相关性显著的基因组合成具有某种特征的基因组合来降低维数,进而利用支持向量机进行训练学习来寻找识别肿瘤的最好的分类因素。
4.1.1算法流程图
我们基于各种方法寻找与肿瘤相关的突变基因的分类因素的算法过程如图1所示:
图1:
算法流程图
4.1.2基因筛选
1、修正后的信噪比公式[1]
,式中
,
和
分别是第
个基因在正常人和癌症患者两类样本中的均值和均方差。
其中,公式的第一部分来源于Golub等人提出的“信噪比”指标,后一部分体现了表达水平分布方差的不同对样本分类的贡献。
2、筛选结果
利用修正后的信噪比公式将每个基因赋以相应的权重,根据实验设定相应的阈值,之后从中初步筛选出可能与肿瘤相关的基因。
由于目前仍没有关于使用多少基因来构造分类器这一问题的最优答案,故我们根据修正后的信噪比计算公式分别筛选出M为25个、50个、100个、200个基因来构造分类器。
4.1.3降维处理
1、主成分分析的基本思想
主成分分析(PCA)的目的是为了降维,即设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标。
这些转化生成的综合指标称作主成分,其中每个主成分都是原始变量的线性组合,体现原有变量的综合效果,且各个主成分之间互不相关,从而在进行定量分析的过程中涉及的变量较少,而得到的信息量较多[2]。
2、主成分分析的实现
我们利用修正后的信噪比公式筛选出的基因在Matlab中进行主成分分析。
根据修正后的信噪比计算公式分别筛选出的25个、50个、100个、200个基因对附录中62个样本数据进行主成分分析,结果如表1所示:
表1:
主成分分析的结果
M
选取主成分个数
累计贡献率
25
3
89.80%
50
4
86.16%
100
5
87.26%
200
85.46%
其中,M为筛选出的基因数
4.1.4支持向量机[11]
1.支持向量机的基本思想
支持向量机(SVM,SupportVectorMachine)是由Vapnik首先提出的,可用于模式分类和非线性回归。
支持向量机的主要思想是建立一个分类超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。
支持向量机算法旨在改善传统神经网络学习方法的理论弱点,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的泛化能力。
[3,4]
2、支持向量机的数学模型
在分类问题中,支持向量机分类效果主要受核函数的选择以及参数的选择的影响。
支持向量机常用的核函数有线性、多项式核函数、径向基核函数、S形核函数。
考虑到径向基核函数可以实现非线性分类同时其只有一个控制参数,而其它核函数均有比径向基核函数更多的核参数。
综合考虑,本文选择径向基函数作为核函数[4],其表达形式如下:
其中
是径向基核函数的参数,下文用
来表示。
关于SVM参数的优化选取,目前常用的方法就是让惩罚参数
和核参数
在一定的范围内取值,对于取定的
把训练集作为原始数据集利用K—foldCrossValidation(K—CV)方法得到在此组
下训练集验证分类准确率,最终取使得训练集验证分类准确率最高的那组
作为最佳的参数,当有多组
对应于最高验证分类准确率时,这里采用的手段是选取能够达到最高验证分类准确率中参数
最小的那组
作为最佳参数。
这样做的原因是:
过高的
会导致过学习状态,即训练集分类准确率很高而测试集分类准确率很低(分类器泛化能力降低),所以在能够达到最高验证分类准确率中的所有的成对的
中认为较小的惩罚参数
是更佳的选择对象。
4.1.5寻求分类因素算法的Matlab实现
本文中将上一步选取的相应主成分作为支持向量机模型的输入,以径向基函数作为核函数,样本的类别作为输出,以K—foldCrossValidation(K—CV)计算最佳参数
,构建支持向量机训练模型。
图2:
分类因素算法图
以下给出参数优化过程中参数
和准确率的等高线图和3D图,能更直观的看到
组合对准确率的影响,如图3所示:
图3:
参数寻优等高线图及3D图
4.1.6算法的检验[9]
1、算法对参数选择的敏感性分析
参数敏感性分析的目的在于检验分析过程中选择不同的M是否会对算法的判定效果产生较大影响。
故采用随机重复的方法:
将62个样本数据随机分成42个样本的训练集(15normal,27cancer)和20个样本的测试集(7normal,13cancer),运用上述算法对测试集进行分类,重复100次并计算平均正确识别个数。
表2:
分类因素算法对随机测试集的平均正确识别个数
平均正确识别个数
平均正确识别率(%)
18.01
90.05
17.85
89.25
17.40
87.00
17.55
87.75
在M分别为25、50、100、200时,采用该算法对样本数据随机测试集的平均正确识别个数在17.40—18.01个之间,这表明该算法的识别效果较为稳定,不因M的变化而发生剧烈波动,即当参数M为25、50、100、200时,该算法对M并不敏感。
2、算法稳定性分析
算法的稳定性主要体现在对不同的训练集和测试集,最终的预测结果没有产生较大波动。
据此,同样采用随机重复的方法,将62个样本数据随机分成42个样本的训练集(15normal,27cancer)和20个样本的测试集(7normal,13cancer),运用上述算法对测试集进行分类并重复100次。
改算法对随机划分的样本数据的分类结果如图4所示:
图4:
分类因素算法对随机划分的样本数据的分类结果
从分类识别的结果看,该算法对含有20个样本的测试集的正确识别个数主要集中在17—19个样本之间,其预测结果总体上比较稳定,并没有因为训练集的变化而使最终预测结果产生剧烈波动。
结论一:
从以上分析与检验可以看出,我们采用的以主成分分析构造的分类因素对样本是正常还是癌变具有很好的识别效果,其识别率均达到90%左右;
并且此寻找分类因素的算法对参数的选择并不敏感,具有非常好的稳定性。
问题二:
从分类的角度确定“基因标签”
从分类的角度来说,我们的目的是在众多基因中找出决定样本类别的一组基因作为分类特征基因。
由于与一种肿瘤直接相关的突变基因数目很少,故只有少数基因与样本类别相关,且大部分基因将被视作无关基因而剔除。
4.2.1分类特征基因的选取
1、Relif算法的基本思想
Relief算法是一种属性重要性排序的机器学习算法,其基本思想是以属性区分相似样本的能力来作为评估属性重要程度的标准,并据此给出属性的分类权重(具体原理见参考文献[8][10])。
Relief算法通过求取分类特征的属性分类权重,来选取具有最大分类权重的一组属性作为决定样本分类的特征基因。
所以基因的分类权重越大,其含有的样本分类信息越多,对样本的分类能力就越强。
[5,6,7]
2、基因的排序
根据Relief算法,本文计算出每个基因的分类权重。
如图5给出了基因分类权重的分布情况:
图5:
基因分类权重的分布图
由上图可知各基因的分类权重,按照从大到小的顺序进行排序,从而得到有序基因组合
,即
满足:
,且
。
4.2.2确定“基因标签”
1、留一交叉检验法(LOOCV)[8]
留一交叉检验法是交叉检验方法的扩展,用来进行样本类型的识别,基本思想是在测试集上每次保留一个不同的样本作为测试样本,其余样本作为SVM的训练样本,不断重复这个过程,直到所有训练样本都被测试了一次为止。
将所有被错误分类的样本数作为该方法的分类错误数。
2、“基因标签”的确定
我们运用留一交叉检验法(LOOCV)来对基因组合中的基因进行分类能力检验,以期进一步缩小具有分类特征基因(“基因标签”)的范围。
(1)由于基因的分类权重越大,其对样本的分类能力也就越强,因此我们设定阈值
,按照从大到小的顺序选取基因组合中分类权重最大的53个基因开始研究其分类能力。
在这里我们定义53个基因组合
,其中初始时刻为
,将
中的基因作为分类特征基因,其值作为SVM模型的输入,记录其对训练样本的分类误差。
(2)接下来将
中分类权重最小的基因
剔除,利用
中的基因作为SVM模型的输入研究其分类能力。
如此循环下去,选取分类权重最大的
个基因,得到分类特征基因组合
用于分类,从而得到了有关于基因组合
与其分类误差的关系曲线(如图6)。
由该曲线不仅可以得到不同基因组合的分类能力,而且也能看出分类能力随基因个数的变化而变化的趋势。
根据错误分类个数最小原则,确定出一个最佳分类基因组合(“基因标签”)。
图6:
分类误差曲线图
由上图可知,基因个数介于12—35之间的分类基因组合的错误分类个数最少,但对于基因个数大于35的组合来说,其走势并不稳定,错误分类个数随着基因个数的增加而升高。
我们认为,造成这一结果的原因在于小样本学习问题,即相对于有限的样本数来说,过多基因数目的选取影响了对样本类别(正常人和癌症患者)的判定。
鉴于此,我们重新对筛选基因的阈值
进行设定,以缩小基因组合的范围,即当
时,按照从大到小的顺序选取基因组合中分类权重最大的18个基因进行分类能力的研究,研究方法仍为留一交叉检验法,这里不多赘述。
经过分析,得到新的分类误差曲线,如图7所示:
图7:
由此图可以清晰的看出:
基因个数大于12的基因组合其错误分类数最低,且随着基因数的扩大一直保持稳定的分类识别率,从而确定具有样本分类特征的“基因标签”为基因组合
4.2.3“基因标签”样本分类能力的显著性检验[8]
为检验上述确定的“基因标签”确实具有区分正常人与癌症患者的良好样本分类能力,在有限样本的情况下,本文采用随机交互检验的方法对
中基因的样本分类能力进行检验。
具体做法如下:
(1)样本抽样:
在保证训练集中每种不同类型的组织样本数不变(即训练集(15normal,27cancer))的前提下,在原始样本集的22个正常人和40个癌症患者样本中进行无重复抽样,以形成新的训练集,剩余样本形成新的测试集。
(2)样本识别:
以
中的基因作为分类特征,利用新形成的训练集构造SVM分类器,对测试集中的样本进行类型识别,记录分类结果(SVM分类模型的参数设置同第一问)。
上述两个过程称为一次随机测试实验,本文共做了100次这样的实验,由此得到100次随机测试实验的平均分类正确率达90.1%。
考虑到
中基因是作为正常人和癌症患者的分类特征基因,那么即使采用非限制性抽样,即不考虑训练集和测试集内部样本的构成情况直接接进行完全随机抽样形成新的训练集和测试集,
中的基因也应具有良好的样本分类能力。
为此,我们采用非限制性抽样同样做了100次随机测试实验,得到测试集的平均分类正确率为90.45%。
这一结果同上面限制训练集样本构成的随机测试实验的分类结果(90.1%)相当。
结论二:
综上所述,基因“标签”
={R87126,H08393,M63391,X12671,Z50753,R36977,J02854,J05032,M26383,M22382,X63629,M76378}中的基因识别正常和患癌样本的识别率达到了90%左右,检验证明其具有很好的分类能力,“基因标签”的确定具有合理性。
问题三:
基因表达谱中噪声模型的建立
4.3.1噪声的去除
基因表达谱中不可避免的含有噪声,充分消除噪声数据的影响有利于“基因标签”更精确的给出。
“噪声”一般来源于噪声样本、无用基因和基因数据的方差波动等方面。
我们认为应该针对第二问中确定的“基因标签”(
)中的基因数据进行噪声处理。
1、实验数据去噪
在第二问得到的“基因标签”
={R87126,H08393,M63391,X12671,Z50753,R36977,J02854,J05032,M26383,M22382,X63629,M76378}中,我们发现基因M76378在原始数据表中存在重复出现的现象,这可能是由于实验误差造成的。
其原始数据如表3所示:
表3:
基因M76378的原始数据
GenBankAccNo
normal1
normal2
……
normal22
cancer1
cancer2
cancer40
M76378
10.6869
9.171528
10.2768
8.89263
7.708872
7.579983
10.74164
9.223371
10.17443
8.880096
7.61792
7.786257
10.79765
9.498652
9.100912
8.606461
7.363981
5.726695
针对基因M76378,利用SPSS软件分别对其normal样本和cancer样本进行方差分析,结果如表4和表5所示:
:
ANOVA
表4:
normal样本数据
SumofSquares
df
MeanSquare
F
Sig.
BetweenGroups
122.490
21
5.833
27.288
.000
WithinGroups
9.405
44
.214
Total
131.896
65
表5:
cancer样本数据
92.377
39
2.369
5.802
32.658
80
.408
125.035
119
分析结果表明,基因M76378的normal样本和cancer样本之间都存在着显著的差异性。
因此有理由推断,基因M76378的显著差异来源于同类样本自身,并不直接作用于样本分类。
所以应该将基因M76378从“基因标签”中予以删除。
2、噪声样本的识别与剔除
由第二问中的分类误差曲线图(图8和图9)可以看出,所有特征分类基因组合的最小错误分类个数为5,还没有一个基因组合的正确分类识别率达到100%。
这表示作为分类特征的“基因标签”仍然有进一步精确的空间。
通过进一步分析我们发现,在各基因组合进行样本分类识别的过程中有5个样本经常被错判,且这正好与基因组合的最小错误分类数相同。
因此我们猜想,是否是这5个样本的存在导致基因组合的正确识别率始终无法达到100%。
为了验证这一猜想,我们从样本的角度出发,对各个样本在分类识别过程(包括在
两种情况下的留一交叉检验)中的错误识别率进行了具体分析,如图8和图9所示:
图8:
的留一交叉检验中各样本的错误识别率
图9:
从图中可以非常直观的看到:
在这两个分类识别的过程中,都有5个样本被严重错判,且都是同样的5个样本。
它们分别是:
normal18,normal20,cancer52,cancer55,cancer58。
这些样本严重干扰了“基因标签”对样本的正确分类,影响了“基因标签”的选取,故应该删去。
综上所述,在对基因组合
的原始数据进行去噪后,得到了新的基因组合{R87126,H08393,M63391,X12671,Z50753,R36977,J02854,J05032,M26383,M22382,X63629},而这些基因的原始数据样本也由62个变为57个(包括20个normal样本和37个cancer样本)。
4.3.2去噪后的“基因标签”确定
我们将去噪后的数据重新带入第二问的“基因标签”确定模型,得到新的“基因标签”
={R87126,M63391,J02854}。
4.3.3“基因标签”样本分类能力的显著性检验
我们采用非限制性抽样同样做了100次随机测试实验(方法同4.2.3),得到测试集的平均分类正确识别率为92.65%,即基因“标签”
具有良好的样本分类能力。
结论三:
综上所述,与第二问中得到的基因标签
相比,去噪后得到的基因“标签”
={R87126,M63391,J02854}其基因组合所含基因数大大减少,且平均正确识别率达到92.64%,高于
的识别精度。
由此我们认为无论是来源于哪个方面的噪声对基因“标签”的影响都是不利的,所以对基因表达谱无论是在实验阶段还是在数据处理阶段都必须考虑噪声的影响,从而提高识别肿瘤的正确率,为临床及医学研究提供精确的依据。
问题四:
融入临床信息的诊断肿瘤确定基因标签的数学模型的建立
目前诊断肿瘤主要依靠临床的生理学信息,但有些情况下临床信息会难以确定甚至出现错误,这就为肿瘤的早期诊断和及时治疗带来了很多困难。
而近年来迅速发展并日益成熟的基因表达谱可以清晰地表现肿瘤样本与正常样本的差别,据此可以更精确地识别肿瘤。
遗憾的是,基于基因表达谱的研究还没有进入临床实践。
如果能把基于基因表达谱的肿瘤识别方法与临床生理学信息结合起来建立确定基因标签的数学模型将会为肿瘤的识别与诊断带来更可靠的依据。
我们尝试在这一问中建立这样一个数学模型。
4.4.1APC基因和ras相关基因
由APC基因和ras相关基因的原始数据得到其各自的样本表达水平趋势图,如图10所示:
APC
ras(M28214)ras(T70197)ras(L33075)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 基因 表达 肿瘤 识别 方法 研究
![提示](https://static.bdocx.com/images/bang_tan.gif)