表达谱.docx
- 文档编号:2466027
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:14
- 大小:1.47MB
表达谱.docx
《表达谱.docx》由会员分享,可在线阅读,更多相关《表达谱.docx(14页珍藏版)》请在冰豆网上搜索。
表达谱
对于基因表达谱数据的分析是生物信息学的研究热点和难点。
转化为数学问题,分析任务是从数据矩阵M中找出显著性结构,结构类型包括全局模型(model)和局部模式(pattern)。
对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析(ExploratoryDataAnalysis)、描述建模(descriptivemodeling)、分类、聚类、回归和机器学习等。
基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。
从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。
从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。
然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。
相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。
尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。
因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。
聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。
聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。
聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、K均值、自组织特征映射网络等。
本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。
8.4.1相似性度量函数
对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。
在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。
距离越小,表达模式越相近;反之,则表达模式差异大。
常见的相似性度量有距离、点积、相关系数(correlationcoefficient)、互信息(mutualinformation)等。
假设两个基因表达谱分别为X=(x1,x2,…,xm)和Y=(y1,y2,…,ym),距离函数d(X,Y)必须满足如下条件:
d(X,Y)≧0
d(X,Y)=d(Y,X)
d(X,Y)=0ifX=Y
d(X,Y)≦d(X,Z)+d(Z,Y)
欧氏距离(Euclideandistance)是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离,两个基因表达谱之间的欧氏距离计算公式如下:
(8-15)
相关系数也是常用的相似性度量函数,计算公式如下:
(8-16)
(8-17)
其中,Goffset是G的各分量的均值,是标准方差。
用上述两种相似性度量,可以找出表达谱相似或者变化趋势相同的基因,如图8.2(a)、(b)所示。
欧氏距离、相关系数可以反映基因之间的共表达关系,两个基因表达谱间的距离小于给定的阈值或相关系数大于某个给定的阈值,就可以认为它们之间是共表达的。
距离和相关系数之间存在关联,在具体应用时,可以根据需要进行转换。
距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,例如基因A调控B,B调控C,调控还有正性调控和负性调控之分。
对于这些调控关系,它们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相等。
如何从数据中发现这些复杂的基因关系呢?
互信息可能是一种有用的度量指标,其定义如下:
MI(X,Y)=H(X)+H(Y)-H(X,Y) (8-18)
(8-19)
MI(X,Y)是向量X和Y的互信息,H(X),H(Y)分别是X和Y的熵,H(X,Y)是向量X,Y的联合熵。
归一化互信息NMI定义如下:
NMI(X,Y)=MI(X,Y)/max[H(X),H(Y)] (8-20)
NMI独立于单个信息熵,抓住了模式上的相似性。
互信息聚类分析没有规则上的约束,不象欧氏距离。
目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式空间是不存在的,选择何种度量函数依赖于我们要解决的问题。
8.4.2聚类方法
对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类的先验知识,所以通常采用无监督学习方法。
在基因表达数据分析方面,层次式聚类、K均值、自组织映射神经网络在应用中是常用的方法。
下面主要介绍这几种常用的聚类方法,并简单介绍一些其它方法。
8.4.2.1简单聚类
假设有G个基因,它们的表达谱分别用向量表示为。
令任意一个基因的表达向量为第一个聚类的中心,假设选择。
然后计算到的距离D21,如果D21大于给定的阈值T,则说明不属于第一类,应该分到另外的类。
在这种情况下,建立一个新的聚类中心;如果D21小于阈值T,则将分到第一类中。
接着处理其它基因,在处理第i个基因时,首先计算该基因的表达谱与现有各类中心的距离,假设与第j类的距离Dij最小,并且Dij 简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈值T以及基因表达谱在其空间的分布有关。 该方法对于给定的一组基因表达数据模式进行初步分类提供了一种快速的算法。 8.4.2.2层次聚类法 层次聚类法,在统计分析中也称为系统聚类法,原理和算法与第6章所介绍的系统发生树连锁构造方法类似,所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。 该方法在基因表达谱聚类分析中是常用方法,它的优点是容易理解和实现,所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系,尤其是类与类之间的关系。 但是,基因表达谱的数量很多,往往要多于系统发生树分析时的物种数量,而且基因之间相互关系的信息也没有物种之间的多,所以,对聚类结果的后续分析要比系统发生树分析复杂得多。 对于表达谱聚类的结果还需要进一步分析基因的功能或者基因的序列特征,一般通过剪枝得到分类结果,而剪枝的过程往往带有更多的主观性,这会导致丢失一些重要的信息或包括一些无关的信息。 此外,在构建基因表达谱聚类树时,已被合并的向量不再参与以后的分类,这会导致聚类结果与向量的次序有关,所以被认为是一种局部最优解的方法。 8.4.2.3K均值聚类 K均值聚类在数据划分上不考虑类的分层结构问题,该算法使待聚类的所有向量到聚类中心的距离的平方和最小,这是在误差平方和准则的基础上得到的。 K均值聚类算法如下: (1)任意选取K个基因表达谱向量作为初始聚类中心Z1,Z2,…,Zk,在没有先验知识的情况下,一般选择前K个基因。 (2)对所有的基因表达谱向量进行反复迭代计算。 在第l次迭代过程中,如果则将X所代表的基因归于第j类。 (3)经过一次迭代计算后,聚类中心可能发生变化,因此需要重新计算K个新聚类中心: (8-21) 其中fj(l)为第l次迭代中第j个聚类的基因集合,Nj为该集合中基因的个数。 (4)对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),则迭代结束,得到最后的聚类结果;否则转第2步,继续进行迭代计算。 聚类中心的个数K、初始聚类中心的选择、基因排列的顺序以及基因表达谱数据的分布影响聚类的结果,当基因表达谱类别之间分离较远时,该算法可以取得令人满意的聚类分析结果。 8.4.2.4自组织映射神经网络 人工神经网络技术在模式识别方面有着独特的优势,神经网络能够进行非线性数据处理,发现复杂的数据关系,其中,自组织映射神经网络(Self-OrganizingMap,SOM)可以对模式数据进行自动聚类。 自组织特征映射是Kohonen在1990年提出的类似大脑思维的一种人工神经网络方法,它是一种竞争学习算法,可以被认为是一种从N维模式空间各点到输出空间少数点的映射。 这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。 SOM采用无教师学习训练,训练完成后,分类信息存储在网络各节点连接权值向量中,与权值向量相似的输入向量将分为一类。 SOM包括一维和二维模型,二维SOM也称为KFM(KohonenFeatureMapping)。 它们的区别在于KFM考虑邻近神经元的相互作用,即获胜神经元对周围神经元由于距离的不同会产生不同的影响。 KFM的结构如图8.3所示,输入网络的是一个n维向量的所有n个数值,输出单元呈二维排列,个数为p×p,输入层与输出层的各单元之间是全连接的,并用W表示连接权重。 KFM的学习过程就是对所有的G个样本向量进行迭代学习,直到权值W的变化小于某一个确定的阈值或迭代达到一定的次数。 测试过程比较简单,对于每一个样本向量,计算其获胜神经元,输出单元相同的样本向量属于同一类。 虽然KFM有学习过程,但是可以看到这种学习是从所有的样本中自动获取特征,没有教师的参与,因此称为无监督的学习方法。 Kohonen认为,神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。 该思想来自于大脑神经元的特性,即大脑皮层的神经元成二维空间排列,不同区域分工不同,各自对输入模式的不同特征敏感,神经元之间存在信息交互,主要是侧向交互,即某个经元对周围神经元之间存在由近到远的不同的影响作用,而不是简单的侧抑制作用。 对邻近神经元的交互作用函数有巴拿马草帽型(公式8-22)或矩形型(公式8-23)。 (8-22) (8-23) 其中dcj是输出单元c与邻近单元j之间在神经元平面上的距离,R是交互作用半径。 KFM的学习过程如下: 学习过程可以采用从全局到局部的策略。 采取这种策略时,学习初期可设定较大的交互作用半径R,随着学习过程的不断推进,逐步减小R,直至不考虑对邻近单元的影响。 邻域的形状可以是正方形或者圆形。 KFM的聚类结果与K均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。 KFM方法克服了K-均值聚类的一些缺点: 它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 表达