生物信息学完整版.docx
- 文档编号:30343083
- 上传时间:2023-08-13
- 格式:DOCX
- 页数:11
- 大小:23.15KB
生物信息学完整版.docx
《生物信息学完整版.docx》由会员分享,可在线阅读,更多相关《生物信息学完整版.docx(11页珍藏版)》请在冰豆网上搜索。
生物信息学完整版
一、名词解释
1.生物信息学:
1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;
2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;
3)目的在于阐明大量生物学数据所包含的生物学意义。
2.BLAST(BasicLocalAlignmentSearchTool)
直译:
基本局部排比搜索工具
意译:
基于局部序列排比的常用数据库搜索工具
含义:
蛋白质和核酸序列数据库搜索软件系统及相关数据库
3.PSI-BLAST:
是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4.一致序列:
这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5.HMM隐马尔可夫模型:
一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。
(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:
由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7.非信息位点:
对于最大简约法来说没有意义的点。
8.标度树:
分支长度与相邻节点对的差异程度成正比的树。
9.非标度树:
只表示亲缘关系无差异程度信息。
10.有根树:
单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11.无根树:
只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12.注释:
指从原始序列数据中获得有用的生物学信息。
这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13.聚类分析:
一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14.无监督分析法:
这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。
15.有监督分析法:
这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
16.微阵列芯片:
将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
17.虚拟消化:
是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。
是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上, 由计算机进行的一种理论上的蛋白裂解反应。
18.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。
19.分子途径是指一组连续起作用以达到共同目标的蛋白质。
20.虚拟细胞:
一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。
21.先导化合物:
是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。
就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
22.权重矩阵(序列轮廓):
它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。
基础上针对特定的应用目标而建立的数据库。
23.系统发育学(phylogenetic):
确定生物体间进化关系的科学分支。
24.系统生物学(systemsbiology):
是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
25.蛋白质组(proteome):
是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26.ESI电喷雾离子化:
一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
二.填空题
1.常用的三种序列格式:
NBRF/PIR,FASTA和GDE
2.初级序列数据库:
GenBank,EMBL和DDBJ
3.蛋白质序列数据库:
SWISS-PROT和TrEMBL
4.提供蛋白质功能注释信息的数据库:
KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)
5.目前由NCBI维护的大型文献资源是PubMed
6.数据库常用的数据检索工具:
Entrez,SRS,DBGET
7.常用的序列搜索方法:
FASTA和BLAST
8.高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)
9.多序列联配的常用软件:
Clustal
10.蛋白质结构域家族的数据库有:
Pfam,SMART
11.系统发育学的研究方法有:
表现型分类法,遗传分类法和进化分类法
12.系统发育树的构建方法:
距离矩阵法,最大简约法和最大似然法
13.常用系统发育分析软件:
PHYLIP
14.检测系统发育树可靠性的技术:
bootstrapping和Jack-knifing
15.原核生物和真核生物基因组中的注释所涉及的问题是不同的
16.检测原核生物ORF的程序:
NCBIORFfinder
17.测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18.二级结构的三种状态:
α螺旋,β折叠和β转角
19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层
20.通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)
21.蛋白质质谱数据搜索工具:
SEQUEST
22.分子途径最广泛数据库:
KEGG
23.聚类分析方法,分为有监督学习方法,无监督学习方法
24.质谱的两个数据库搜索工具:
SEQEST和Lutkefish
三.问答题
1.FASTA序列格式
第一行以“>”开头但并没有指明是蛋白质还是核酸序列。
后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。
值得注意的是FASTA文件允许以小写字母表示氨基酸。
文件扩展名为“.fasta”。
(NBIR/PIR序列格式
第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。
后面是说明行,该行可长可短,没有长度限制。
接下来是序列本身,以“*”号终止。
文件的扩展名为“.pir”或“.seq”。
GDE序列格式
与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。
)
2.BLAST的五个子程序
程序
查询序列
数据库种类
简述
方法
Blastp
蛋白质
蛋白质
可以找到具有远源进化关系的匹配序列
待搜索蛋白序列与蛋白数据库比较
Blastn
核苷酸
核苷酸
适合寻找分值较高的匹配,不适合远源关系
待搜索核酸序列与核酸数据库比较
Blastx
核苷酸
(已翻译)
蛋白质
适合新DNA序列和EST序列的分析
将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较
TBlastn
蛋白质
核苷酸
(已翻译)
适合寻找数据库中尚未标注的编码区
将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比
TBlastx
核苷酸
(已翻译)
核苷酸
(已翻译)
适合分析EST序列
无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列
3.生物类的数据库类别:
一级数据库:
数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;
二级数据库:
对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
4.PSI-Blast的原理:
PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。
其主要思想是通过多次迭代找出最佳结果。
每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。
具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。
(以下为研究生课件部分)
PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。
利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。
此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。
5.多序列联配的意义:
1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。
6.系统发育学的研究方法:
1)表现型分类法:
将表型相像的物种归类在一起,所有特征都要被考虑到;
2)遗传分类法:
具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列;
3)进化分类法:
该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;
7.系统发育树的构建方法:
1)距离矩阵法:
首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;
2)最大简约法:
该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类;
3)最大似然法:
该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
8.简述人工神经网络预测蛋白质二级结构的基本步骤。
1)输入数据(来自PDB)
2)产生一个神经网络(一个计算程序)
3)用已知的蛋白质二级结构来训练这个模型
4)由训练好的模型来给出未知蛋白的一个可能的结构
5)最后从生物角度来检验预测的一系列氨基酸是否合理
9.预测蛋白质三级结构的三种方法
1)同源建模法:
依据蛋白质与已知结构蛋白比对信息构建3D模型;
2)折叠识别法:
寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;
3)从头预测法:
根据序列本身从头预测蛋白质结构。
10.分子途径和网络的特点:
1)分子途径和网络的结构随意性大。
图可以很简单,也可以非常复杂。
它们可能包含了多个分支,盘绕的连接和回路。
2)它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。
调控途径和网络的图也应该说明相互作用是正的还是负的。
正的相互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者失活作用)常常用T型棒表示。
11.先导化合物的来源有四种来源:
1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)
2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)
3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)
4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)
12.简述DNA计算机的基本原理:
1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;
2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。
DNA计算机优点:
低能耗、存储容量高、运算速度快,可真正实现并行工作。
13.简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?
试管方式:
就是在一个或多个试管的溶液里进行生化反应;
表面方式:
是将对应的解空间的DNA分子固定在一块固体上,其次进行各种生化反应,或是在表面逐步形成解空间,然后根据具体问题对所有可能的解进行筛选,最后得到运算结果。
(1)操作简单,易于实现自动化操作;
(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误;
(3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;
(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10的5次方倍;
(5)结果易于纯化。
14.简述PCR引物设计的基本原则及其注意要点
原则:
首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。
注意要点:
1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适合于TaqDNA聚合酶进行反应。
2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。
引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。
3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。
不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基。
另外,引物二聚体或发夹结构也可能导致PCR反应失败。
5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。
4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。
上下游引物的GC含量不能相差太大。
5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。
Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。
6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。
应当选用3’端G值较低(绝对值不超过9),而在5’端和中间G值相对较高的引物。
引物的3’端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。
7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。
8、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。
15.假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)
1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。
2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。
3、最后用距离法构建系统发育树。
16.假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。
1、用该序列进行BLASTP搜索。
2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。
3、再用ClustW进行多序列比对。
4、用人工神经网络的方法对其结构进行结构预测。
电喷雾离子化:
样品溶解后从高电压控制下的细针中喷出,形成的带电荷微小液滴从一个小孔直接进入质谱仪的真空室中,在其钟被一股惰性气体干燥形成气态离子,这些气态离子从分析仪向探测器加速(飞行)。
质谱:
基本原理:
将分析物分散在基质分子中并形成晶体,当用激光照射晶体时,基质分子吸收激光能量,样品解吸附,基质—样品之间发生电荷转移使样品分子电离。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 完整版