欢迎来到冰豆网! | 帮助中心 分享价值,成长自我!
冰豆网
全部分类
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • 党团工作>
  • ImageVerifierCode 换一换
    首页 冰豆网 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    生物信息学复习总结材料.docx

    • 资源ID:30142093       资源大小:1.15MB        全文页数:23页
    • 资源格式: DOCX        下载积分:10金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学复习总结材料.docx

    1、生物信息学复习总结材料生物信息期末总结1.生物信息学(Bioinformatics)定义:(第一章) 生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。(或:) 生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(NSFC)2. 科研机构及网络资源中心:NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心;EMBnet:欧洲分子生物学网络;EM

    2、BL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所; ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;(Expert Protein Analysis System)Bioinformatics Links Directory;PDB (Protein Data Bank); UniProt 数据库3. 生物信息学的主要应用:1生物信息学数据库;2序列分析;3比较基因组学;4表达分析;5蛋白质结构预测;6系统生物学;7计算进化生物学与生物多样性。4. 什么是数据库: 1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。(记录record、字段fiel

    3、d、值value)2、生物信息数据库应满足5个方面的主要需求:(1)时间性;(2)注释;(3)支撑数据 ;(4)数据质量 ;(5)集成性。3、生物学数据库的类型:一级数据库和二级数据库。(国际著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT等;蛋白质结构库有PDB等。)4、一级数据库与二级数据库的区别: 1)一级数据库:包括:a.基因组数据库-来自基因组作图;b.核酸和蛋白质一级结构序列数据库;c.生物大分子(主要是蛋白质)的三维空间结构数据库,(来自X-衍射和核磁共振结构测定);2)二级数据库:是对原始生物分子数据进行整理、分类

    4、的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。5、一个数据库记录(entry)一般由两部分组成:1)原始序列数据(sequence data);2)描述这些数据生物学信息的注释(annotation):注释中包含的信息与相应的 序列数据同样重要和有应

    5、用价值。6、数据的完整性和注释工作量:1)序列数据广,序列注释不够完整;2)库数据面窄,序列注释全面.7、数据库的动态更新:1)不断增加;2)不断修正.5、几个大型数据库简介:NCBI、EBI、SIB(共点:拥有庞大的一级数椐库、大量工具软件和广泛的外联。)1、NCBI(www.ncbi.nlm.nih.gov):NCBI是指美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI),成立于1988年,其主要工作是开发以GenBank为代表的数据库,进行计算生物学研究,开发用于分析基因组数据的软件工具,发布生物医学信息。1)

    6、Entrez(集成化的数据库)(http:/www.ncbi.nlm.nih.gov/gquery/)Entrez是NCBI著名的用于提取序列信息的工具,它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI的SRS(见下文),是一个查询、提取和显示系统。The original version(原始版本)(1991) of Entrez had just 3 nods。2)可查Protein、PubMed(生物医学文献数据库)、Nucleotide、Genome、Gene、Pathway等相关信息。2、EMBL-EB

    7、I(www.ebi.ac.uk)EMBL Nucleotide Sequence Data Library(now known as EMBL-Bank)为世界上第一个核酸序列数据库(1980)。欧洲分子生物学实验室下属欧洲生物信息学研究所(European Bioinformatics Institute, EBI,1992,英国)EMBL-EBI核酸数据库提供了序列搜索的服务。通过它的序列提取系统SRS6(搜索引擎),我们可以用十几种不同的方法(如用关键字)搜索我们想要的序列。EBI还资助了Ensembl项目,Ensembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。欧洲

    8、分子生物学实验室EMBL(The European Molecular Biology Laboratory)。Services、UniProt、ArrayExpress、Ensembl、InterPro、PDBe等界面。3、SIB(us.expasy.org)瑞士生物信息研究所(Swiss Institue of Bioinformatics,SIB ,30 March 1998)。用于获取蛋白质序列和相关数据的最有用的资源之一就SIB提供的蛋白质专家分析系统:SWISS-PROT,ExPASy(Expert Protein Analysis System瑞士日内瓦大学专家蛋白质分析系统(h

    9、ttp:/www.expasy.ch/)。6、核酸序列数据库:1、国际上权威的核酸序列数据库: (1)欧洲分子生物学实验室的EMBL; (2)美国生物技术信息中心的GenBank; (3)日本遗传研究所的DDBJ,( http:/www.ddbj.nig.ac.jp/);这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。2、INSDC国际核酸序列数据库协会:1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会(Inter

    10、national Nucleotide Sequence Database Collaboration,INSDC),三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。(http:/www.insdc.org/)7、蛋白质序列数据库:1)PIR(Protein Information Resource);(http:/pir.georgetown.edu/)2)SWISS-PROT; (http:/www.expasy.ch/sprot/sprot-top.html)3)TrEMBL;(http:/www.ebi.ac.uk/trembl/

    11、index.html) 是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中;4)NCBI美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI);5)UniProt;通用蛋白质数据库(http:/www.uniprot.org/)包括:(Swiss-Prot、TrEMBL、PIR) 用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。8、生物大分子结构数据库:1)PDB(

    12、Protein Data Bank);(http:/www.rcsb.org/)2)MMDB(Molecular Modeling Database);(www.ncbi.nlm.nih.gov/Structure/)9、其它生物分子数据库:1)单碱基多态性数据库dbSNP; 2)基因组数据库(GDB); 3)人类基因组数据库Ensembl; 4)表达序列标记数据库dbEST; 5)序列标记位点数据库dbSTS; 6)面向基因聚类数据库UniGene; 7)蛋白质结构分类数据库SCOP; 8)蛋白质二级结构数据库DSSP;9)蛋白质同源序列比对数据库HSSP;10)OMIM(Online Me

    13、ndelian Inheritance in Man),是关于人类基因和遗传疾病的分类数据库。Nucleic Acid Research附:1、NCBI和EBI使用的搜索引擎分别是什么?答:NCBI使用的是Entrez,EBI使用的是SRS。2、FASTA格式有哪些部分组成,以什么字符开始?答:包含gi number,Database identifiers,Accession number,Locus name等部分,以字符开始。3、NCBI的WEB和离线序列提交软件是什么?答:WEB提交工具:Bankit;离线提交:Sequin4、系统生物学:答:确定、分析和整合生物系统在遗传或环境扰动下

    14、所有内部元件间相互作用关系的一门学科。10、序列数据的文件格式:(第二章)格式主要有三种:DNA/RNA/氨基酸代码的标识(B、Z);GenBank数据格式;FASTA 数据格式。一、GBFF(GenBank flatfile)GenBank平面文件格式:GenBank、EMBL、DDBJ每天都相互同步更新各自的数据库,那么它们是怎样交换数据的呢?这里引入GBFF(GenBank flatfile即GenBank平面文件)格式。GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。GBFF文件分为三部分:a.头部包含整个记录的信息(描述符);b.第二部分包含了注

    15、释这一记录的特性;c.第三部分是核苷酸序列本身。(注:所有序列数据库记录都在最后一行以“/”结尾。)1)GBFF:LOCUS行(LOCUS ,SCU49845,5028 bp,DNA linear,PLN,21-JUN-1999)所有GBFF都起始于LOCUS行:第一项:是LOCUS名称(SCU49845):现在唯一的作用是它在数据库中是独一无二的,已不再具有任何实际意义。大多数情况下,它仅使用检索号码(accesession number)以满足对LOCUS名称的要求;第二项是序列长度(5028 bp):规定单条数据库记录的长度不能超过350kb。除历史原因外,GenBank已经很少接受长度

    16、低于50bp的序列了;第三项表明分子类型(DNA):其序列必须是一种单一的分子类型;第四项是GenBank分类码(PLN):由3个字母组成。现在其作用仅限于在下载数据库时对数据库作简单的分类。最后一项是其最后修订日期(21-JUN-1999):有时也仅表示数据首次公开日期。2)GBFF: DEFINITION行(definition)(DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.)LOCUS行的下一行为

    17、DEFINITION行:主要对GenBank记录中所含的生物学意义做出总结。它的说明内容包括了来源物种、基因/蛋白质名称。若序列是非编码区,则包含对序列功能的简单描述;若是一段编码区,则标明该序列是部分序列(partial cds)还是全序列(complete cds)。3)GBFF:ACCESSION行( accession)检索号行(ACCESSION U49845)检索号(accession)是序列记录的惟一指针。通常由1个字母加5个数字(U12345)或由2个字母加6个数字(AF123456)组成。它在数据库中是惟一而且不变的。有时ACCESSION行中可能会出现多个检索号,可能是由于

    18、数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。我们称第一个检索号为主检索号,其余的统称为二级检索号。4)GBFF:VERSION行(version)版本号行(VERSION U49845.1 GI:1293613)VERSION行是版本号,格式为:检索号.版本号。版本号用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如某条序列数据发生了变化,即使是单碱基的改变它的版本号也将增加,而其检索号保持不变。版本号系统与其后的GI(geninfo identifier)号系统是平行运行的。即当一条序列改变后,它将被赋予一个新的GI号,其版本号也将增加。蛋白质的翻译发生任

    19、何变换,核酸序列都将被赋予一个新的GI号。5)GBFF:KEYWORDS行(keywords)关键词行(KEYWORDS .)关键词行是用来描述序列的。如果该行没有任何内容,那么就只包含一个“.由于没有对照词汇表,故NCBI/GenBank拒绝接受关键词,它只存在于旧的记录中。6)GBFF:OURCE行(source)来源行(SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Sacchar

    20、omycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces.)对来源行(SOURCE)没做特殊的规定,它通常包含序列来源生物的简称,有时也包含分子类型。在下面以NCBI的分类数据库为依据,指明物种的正式科学名称。7)GBFF:REFERENCE 行reference参考文献行(REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a

    21、 gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890)参考文献行将与该数据有关的参考文献均收录在内。将最先发表的文献列于第一位。如果序列数据没有被相关文献报道,该行将出现“unpublished”或“in press”。最后将有一个可能的PUBMED指针。8)GBFF:FEATURES 行(features)特性表行(FEATURES Location/Qualifiers CDS 数据库检索实例 left primer , right primer)4、Oligo 7手工设计引物:上游ATGGGAAAAGACTATTACAAAATC下游TCAATTCGGCAGCGTATCGTAGAG选择引物长度选定上下游引物3G绝对值不能超过9Duplex Formation二聚体分析、Hairpin formation发夹分析(G不能超过4.5)成分和Tm错误引发位点分析:一般在100以下,若正确引发效率达到400,可承受超过100多点PCR最终分析评价引物二次筛选(上下游引物在ncbi中进行blast分析(搜索primer ncbi)并输入设计的


    注意事项

    本文(生物信息学复习总结材料.docx)为本站会员主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2022 冰点文档网站版权所有

    经营许可证编号:鄂ICP备2022015515号-1

    收起
    展开