《生物信息学》复习资料.docx
- 文档编号:9486765
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:28
- 大小:318.97KB
《生物信息学》复习资料.docx
《《生物信息学》复习资料.docx》由会员分享,可在线阅读,更多相关《《生物信息学》复习资料.docx(28页珍藏版)》请在冰豆网上搜索。
《生物信息学》复习资料
《生物信息学》先锋版中译本第二版科学出版社
打分政策:
60%期末考试(70%掌握内容、25%熟悉内容、5%理解内容)(请注意红体与黑体字)
A:
生物信息学概述
1.生物信息学:
生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。
生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。
数据库
生物信息学主要由三大部分组成算法与统计工具
分析与解释
测序策略:
逐个克隆法、全基因组鸟枪法
计算机在生物信息学中的作用:
生物信息学需要计算机快速、可靠地执行重复任务的能力以及处理问题的能力。
然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。
生物信息学课程范围:
使初学者理解生物信息学的基本原理,并获得相应的应用能力。
具体包括生物信息学的一些关键领域:
数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。
2.生物信息学实例:
——数据库界面Genbank/EMBL/DDBJ,Medline,SwissProt,PDB,…
——序列搜索与比对BLAST,FASTA,Clustal,MultAlin,DiAlign
——基因搜索Genscan,GenomeScan,GeneMark,GRAIL
——蛋白结构域分析与鉴定pfam,BLOCKS,ProDom,
——基因调控元件的计算机模式识别GibbsSampler,AlignACE,MEME
——蛋白折叠预测PredictProtein,SwissModeler
生物信息学网站:
包括生物信息学资源、各种数据库和生物信息学分析工具的网站
3.五个必须知道的生物信息学网站:
(详细参考书本p9)
NCBI(TheNationalCenterforBiotechnologyInformation)http:
//www.ncbi.nlm.nih.gov/
EBI(TheEuropeanBioinformaticsInstitute)http:
//www.ebi.ac.uk/
TheCanadianBioinformaticsResourcehttp:
//www.cbr.nrc.ca/
SwissProt/ExPASy(SwissBioinformaticsResource)http:
//expasy.cbr.nrc.ca/sprot/
PDB(TheProteinDatabank)http:
//www.rcsb.org/PDB/
B:
数据采集
一、DNA,RNA和蛋白质测序
1.DNA测序原理:
DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸来
产生有特定终止碱基的嵌套DNA片段。
共有4种反应,每种代表DNA4个碱基中的一个,每个碱基分别带有不同的荧光标记。
DNA片段通过聚丙烯酰胺凝胶电泳(PAGE)分离,当每个片段移动到凝胶的末端时可以通过扫描仪读取序列。
2.DNA序列类型:
DNA序列来源主要有3种方式。
基因组DNA直接来自基因组,包括基因和基因外核酸序列,真核生物的基因组DNA包含内含子;cDNA由mRNA反转录而来,并且只对应于基因组中能表达的部分,它不包含内含子;最后,重组DNA来自实验室,包含克隆载体等人工DNA分子。
3.基因组测序策略:
一次读段(oneread)只能用于短的DNA分子(约800bp)测序,所以大的DNA分子,如基因组,必须首先将其打碎成片段。
基因组测序可以分为两种方式:
霰弹法测序(shot-gunsequencing)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组;与之相反,克隆重叠群测序(clonecontigsequencing)包括亚克隆系统的产生及其测序。
4.序列质量控制:
通过在DNA双链上进行多次读段完成高质量序列数据的测定。
可使用如Phred等程序对最初的跟踪数据(tracedata)进行碱基识别和质量判断。
载体序列和重复的DNA片段被屏蔽后,使用Phrap程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工校对解决。
5.单遍(Single-pass)测序:
低质量的序列数据可以由单次读段产生(单遍测序,single-passsequencing)。
尽管不很准确,但单遍序列如ESTs和GSSs,可以以低廉的价格快速大量地产生。
6.RNA测序:
大部分RNA序列可以从相应的DNA序列推断得到,但是需要用特殊的方法来识别被改变的核苷,这些方法包括:
生化实验、核磁共振谱(NMRspectroscopy)、质谱
7.蛋白质测序:
目前,大部分蛋白质测序是通过质谱(MS)技术进行的,应用这一技术可以通过测量真空中离子的分子质量/电荷比来计算精确的分子质量。
软离子化方法可以对蛋白质这样的大分子进行质谱分析。
通过比较经胰蛋白酶裂解而获得的多肽片段的分子质量与从数据库中蛋白质的虚拟消化(virtualdigest)预测而来的分子质量的异同推断序列。
通过在碰撞室(collisioncell)中产生的蛋白质片段嵌套集合可以进行重新测序,并可通过单个氨基酸残基计算不同长度片段间分子质量的差异。
二、蛋白质结构的确定
1.X-ray衍射晶体学:
X衍射晶体学是一种通过精确定向的蛋白质晶体的X射线衍射模式来确定蛋白质结构的方法。
这种方法中,X射线因晶体中原子的电子密度和空间方向的不同而发生散射,可用傅立叶变换的数学方法从衍射数据中重构电子密度图,以建立结构模型。
2.核磁共振谱:
NMR是某些原子的一种属性,即在外加磁场范围内原子通过吸收电磁辐射可以在不同的磁状态间转换。
吸收光谱的性质受原子类型及其周围化学性质影响,所以NMRspectroscopy可以区分不同的化学功能团。
核磁共振谱也因空间上原子的接近而改变。
NMR谱的分析可以重建原子的三维构型,产生一系列结构模型。
这一技术只适合小的可溶性蛋白的分析。
3.其他方法:
对于大的不容易结晶的蛋白质,需要用其他的分析方法来推测结构,这包括X射线纤维衍射、电子显微镜和CD光谱(circulardichroismspectroscopy)。
C:
数据库——内容、结构和注释
一、文件格式
1.三种常用序列格式:
常用核酸和蛋白序列格式:
①NBRF/PIR格式文件名后缀为:
.piro或.seq
②FASTA格式文件名后缀为:
.fasta
③GDE格式文件名后缀为gde
例:
ID代码:
5H1B_CAVPO
序列登录号:
O08892
NBRF/PIR格式:
>P1;5HT1B_CAVPO
Guineapigserotoninreceptoraccession:
O08892MGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT...
FASTA格式:
>5HT1B_CAVPOO08892|guineapigserotoninreceptorMGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT...
GDE格式:
%5HT1B_CAVPOO08892|guineapigserotoninreceptorMGNPEASCTPPAVLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT...
2.比对序列文件:
可用下述常用格式中任何一种:
NBRF/PIR,FASTA,GDE
多序列比对格式:
MSF,PHYLIPandALN
3.结构数据文件:
结构数据用PDB格式的平面文件(flatfiles)来维护,这类文件包含:
正交的原子坐标值(X,Y,Z轴);注释、说明和实验细节。
NOTE:
1、ATOM行以字符计数,而不是以单词计数;
2、NMR文件没有分辨率REMARK行。
二、已注释的序列数据库
1.初级序列数据库:
保存rawsequencedata,并对每个条目做了进一步的注释:
featuretable---propertiesofseq.
2.辅助序列数据库:
特别类型的序列数据.eg.ESTs,GSSsandunfinishedgenomicseq.data
3.序列提交:
Sequence(序列)→Internet(互联网)→NCBI/EMBL/DDBJ(数据库)
4.SWISS-PROT和TrEMBL:
SWISS-PROT:
收集了确认的蛋白质序列及与结构、功能和所属蛋白质家族有关的注释信息。
TrEMBL:
翻译了初级核酸数据库中的编码序列。
TrEMBL中各条目的注释不如SWISS-PROT中的条目那样详细。
5.数据库查询:
SearchingbySequencesimilarity→BLAST
Text-basedSearching→EntrezorSRSaccessionnumber
accessionnumber:
提供基因及其产物的唯一标示号
D:
生物数据检索
一、通过Entrez和DBGET/LinkDB进行数据检索
1.访问分布数据:
利用专业的数据检索工具Entrez,DBGET和SRS进行数据库搜索
2.Entrez:
Entrez可以用来搜索NCBI中集成的所有数据库包括GenBank,OMIM以及文献数据库MEDLINE
3.NCBI和Entrez:
Entrez→Alldatabases模式搜索,以文本是形式进行
文本搜索:
以单词或逻辑短语为关键词
4.DBGET/LinkDB
DBGET/LinkDB:
日本京都大学和人类基因组中心联合开发的集成数据检索系统。
它整合了20数据库并与KEGG相关联。
LinDB:
isadatabaseoflinks,eachofwhichisrepresentedasabinaryrelationintheformof:
dbname1:
identifier1-->dbname2:
identifier2
DBGET:
haspowerfulcapabilitiestosearchagainstthisgraphobject
Themolecularbiologydatabasesintheworldcanberetrieveduniformlybyspecifyingthecombinationofthedatabasenameandtheidentifier:
dbname:
identifier
Identifier:
organism:
gene
三种搜索模式:
bget,bfind,blink
二、使用SRS的数据检索
1.开源SRS:
SRS由欧洲生物信息研究所开发,其集成有80多个分子生物学数据库。
SRS可下载和安装在本地计算机上使用。
2.使用SRS:
SRS与Entrez和DBGET的数据分类的原理不同。
SRS的使用包括选择一个或多个分组,在每一个选定的组中选择一个或多个现有的数据库。
查询方式有两种:
标准模式、扩展模式。
3.安装SRS:
SRS可以通过脚本语言ICARUS编程来查询使用者自己的数据库。
E:
通过序列相似性标准搜索序列数据库(重难点章节)
一、以序列相似性标准搜索序列数据库
1.序列相似性搜索
1.1.序列相似性搜索:
通过序列相似性来搜索数据库,我们可以找到与所查询序列相似的序列。
可以用这些找到的序列信息来预测查询序列的结构或功能。
依据相似性进行预测是生物信息学中强大而且广泛使用的方法,其根本依据是分子进化。
当序列拥有—个共同的祖先序列时,它们往往在序列、结构和生物学功能上具有相似性。
这很可能是生物信息学上最重要的思想,因为它使得我们可以进行预测。
1.2.序列比对:
任何一对DNA序列都有一定程度的相似。
序列比对:
是使相似度量化的第一步,用来区分偶然性的相似和真实的生物学关系。
比对结果:
以变化(突变)、插入或缺失(indels或空位)来显示序列之间的差异,这些差异可以用进化术语来说明。
1.3.比对算法:
动态规划算法(Dynamicprogrammingalgorithms)可以计算两条序列之间的最佳联配。
两个变体:
Smith-Watermanalgorithm:
localalign.
Needleman-Wunschalgorithm:
globalalign.
当序列不是全长关联时局部比对是有效的。
例如仅在某些特定功能域相似的蛋白质序列,或仅在外显子区域关联的DNA序列等。
Localalignment---BLAST
1.4.比对打分和空位罚分:
用简单的比对打分来测量相同匹配残基的比例或数目。
得从比对打分中扣去空位罚分,以保证比对算法能得出有生物学意义的结果而没有太多的空位。
Score:
S=sum(si)+sum(xk)
空位罚分可以根据预期的应用进行调整。
有下述三种情况:
固定罚分:
与空位长度无关;
比例罚分:
与空位长度成比例;
放射罚分:
包括gapopening和gapextension两部分罚分
Constant:
x=u+vk,v=0
Proportional:
x=u+vk,u=0
Affine:
x=u+vk,u,v≠0
kisthenumber(length)ofthelinkedgaps
例:
SEQ1:
AATTGATTGCGCATTTAAAGGG
SEQ2:
AACTGA---CGCATCTTAAGGG
K=3
我们并不总是很清楚空位罚分常数u和v该采用什么值,这在某种程度上依赖于所比对的序列的性质。
Closesequencerelationship:
highergappenalties
Distantrelationships:
lowergappenalties
1.5.序列相似性测量:
序列相似度可用比对算法、序列一致性百分率(percentagesequenceidentities)或更复杂的方法得出的分值来量化。
SEQ1:
AATTGATTGCGCATTTAAAGGG
SEQ2:
AACTGA---CGCATCTTAAGGG
percentagesequenceidentities:
(16/22)×100=73%
Note:
必须是在长的比对结果中找到的高比例一致,才有可能反映真正的生物学或进化关系。
对DNA序列来说,比对序列并使序列一致性百分率(即percentagesequenceidentities)最大化是合乎情理的。
但对蛋自序列而言,则应该更多地考虑组成序列的单体的属性。
某些氨基酸之间的替代比其他氨基酸更频繁,所以,在蛋白序列比对算法中需要考虑这个因素。
1.6.相似性和同源性:
任何序列之间均存在相似,但是仅当序列是从一个共同的祖先进化而来时,它们才是同源的。
同源序列常常具有相似的生物学功能,但是基因复制的进化机制允许生物体有多余的基因拷贝。
这些多余的基因拷贝于是自由地进化出新的功能,成为有不同功能的同源基因。
直系同源(orthologs):
不同物种的两个同源基因有相同的功能,就称它们是直系同源;
旁系同源(paralogs):
当同一或不同物种的两个基因有不同的功能,就把它们称为是旁系同源.
不同功能的同源基因的例子:
溶解酶(lysozyme,一种酶)和α-乳白蛋白(α-lactalbumin,一种哺乳动物调节蛋白)。
这些蛋白质有非常相似的序列,几乎已肯定是同源的,但却有极其不同的功能。
2.氨基酸替换矩阵(难点)
2.1.相同氨基酸数目的最大化:
比对蛋白质序列从而使相同的氨基酸数目(即percentagesequenceidentities)最大化。
其中,每对匹配的相同氨基酸对比对分值的贡献是1,不一致的氨基酸对对比对分值的贡献是0。
(如下图所示)
这是对密切相关的序列进行比对的好方法,但这并不能揭示远亲之间的进化关系。
2.2.进化:
因为要维持蛋白质结构和功能,所以编码蛋白质的序列的进化比基因组的大多数其他部分的进化更为缓慢。
一个例外是快速进化也可能发生在新近复制基因的多余拷贝中。
2.3.允许的替换:
进化中蛋白序列的变化往往包括相近属性氨基酸间的替代,因为这样才能保持蛋白质的结构稳定。
比如:
同一进化家族的蛋白质序列通常表现为有相似物理化学性质的氨基酸间的替代。
2.4.替换打分矩阵:
这些矩阵给进化中所有可能的氨基酸替换打分,分值越高,意味着替换的可能性越大。
进行序列比对的动态规划算法可以采用从这些矩阵得到的分值来进行运算。
E.g.BLOSUM62andPAM250.
PAM:
AcceptedPointMutations(认可的点突变)
PAM250:
表示矩阵的进化距离是每100个残基有250个氨基酸变化。
PAMn:
n值越小,表示进化距离越短。
PAM250
BLOSUM:
blockssubstitutionmatrix
BLOSUM62:
用于构造矩阵的blocks的最小序列一致性百分数至少为62%。
更小数字的BLOSUM矩阵表示更长的进化距离(BLOSUM50所代表的进化距离要比BLOSUM62要长)。
Note:
BLOSUM矩阵通常比PAM好用。
Blossum62
Note:
一致氨基酸比对的分值也有差异,这反映了氨基酸在天然蛋白序列中的出现频率的不同。
两个相同的非常见氨基酸的比对(如W和W)要比两个相同的常见氨基酸的比对更有可能反映一个进化上有意义的比对。
因此,相同的非常见氨基酸的比对具有更高的分值。
2.5.意义:
替换打分矩阵可以查找蛋白质序列间较远的亲缘关系。
NOTE:
蛋白序列比对比核酸序列比对更可能找到较远的亲缘关系。
2.6.可视化:
点阵图(Dotplots)-点阵图是使序列相似性可视化并找到重复片段的一一个非常好的方法。
3.数据库搜索:
FASTA和BLAST:
3.1.数据库搜索:
把查询序列与数据库中每条序列依次比对并返回最高分(最相似)序列,就能找到与查询序列相近的序列。
这可以通过动态规划算法完成,但实际上常用的是更快的近似方法。
3.2.算法和软件:
BLAST和FASTA提供了非常快速的序列数据库搜索途径。
与动态规划不同,它们并不能保证找到数据库里每条序列的最佳可能比对,但实际上这对性能的影响通常来说是最小的。
它们最初通过搜索短的一致或接近一致匹配的字母(word)片段,然后再将这些片段延伸到更长的匹配。
BLAST和FASTA都基于同样的假设,即高分值的比对结果可能含有短的一致或近似一致的序列片段(shortstretchesorwords)。
(1)BLAST:
W(wordlength);T(thresholdscore);
寻找长度为W比对得分>T的words
↓
扩展这些words直到比对得分跌落到一定值,
产生大量HSPs(high-scoringsegmentpairs)
↓
通过动态规划比对好全部序列高打分区域,
得出最终比对结果及其分值。
(2)FASTA:
ktup;
寻找完全匹配的长度为ktup的words
↓
寻找含有高密度words匹配的ungapped的序列比对;
将其组装成高分值的gapped的序列比对
↓
通过动态规划比对好全部序列高打分区域,
得出最终比对结果及其分值。
3.3.统计得分:
相似度记分的p值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。
低p值表明重要的匹配,这些匹配可能会有真实生物学意义。
相关的E值是至少与所识别的相似性记同样高分值的偶然事件的期望频率。
两序列间相似度的低p值对应于大数据库搜索的高E值。
lowp→highE当E值很小的时候和p值很接近
3.4.敏感性和特异性:
敏感性衡量数据库中真实生物序列关系的比例,该关系表现为击中项(hit)。
特异性指的是对应于真实生物学关系的击中项的比例。
这些测度量化了数据库搜索策略的优良度。
Sensitivity:
Sn=ntp/(ntp+nfn)Specificity:
Sp=ntp/(ntp+nfp)
注:
(tp:
truepositive;fn:
falsenegative;fp:
falsepositive)
改变E和p的默认值会导致这些互补的优良度测量方法之间的平衡。
3.5.数据库类型:
数据库和查询序列可以是蛋白质或核苷酸序列,不同种类的序列和组合有不同的查询策略。
一般来说,如果使用编码蛋白质的核苷酸数据库和/或将查询序列翻译成蛋白质序列,搜索会更加敏感。
3.6.可行例子和现有程序:
BLASTattheNCBI、FASTAattheEBI——搜索许多一般用途的序列数据库。
RESULTS:
按Evalue排序
NOTE:
必须检查有关序列的比对结果以发现序列间相似的区域。
NCBI的BLAST网站:
http:
//www.ncbi.nlm.nih.gov/BLAST/(建议自己动手操作以加深理解)
4.序列过滤:
4.1.非特异性的序列相似:
一些类型的序列相似要比其他类型难揭示进化关系。
Examples:
低组成复杂度区域间的相似,短的重复片段间的相似以及编码普通结构的蛋白序列(如卷曲螺旋)间的相似等。
4.2.相似性搜索:
上述区域类型会降低相似性搜索结果的质量,所以在搜索前常常要将其从搜索序列中过滤掉。
SEGandDUST:
detectandfilterlowcomplexitysequences;
XNU:
filtershortperiodrepeats;
COILS:
detectthepresenceofpotentialcoiledcoilstructures.
5.数据库迭代搜索和PSI-BLAST
5.1.寻找进化关系:
趋异进化可以使蛋白质序列变得无法识别,但却保持结构和功能的相似。
而BLAST和FASTA此类方法有时只能发现数据库中的一小部分进化关系。
有许多生物信息学搜索已经着重于发现序列间的疏远进化关系。
5.2.数据库的迭代搜索:
PSI-BLAST是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
每次迭代都发现一些中间序列,用来在接下去的迭代中寻找查询序列的更多疏远相关序列。
PSI-BLAST常常可以找到比BLAST结果多达两倍的进化关系。
PSI-BLAST的潜在问题是存在不相关序列对迭代结果的污染,而其难点则与蛋白质的结构域的结构有关。
F:
多重序列比对:
基因和蛋白
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 生物 信息学 复习资料