生物信息学的现状与展望张春霆Word格式文档下载.docx
- 文档编号:18007882
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:6
- 大小:24.01KB
生物信息学的现状与展望张春霆Word格式文档下载.docx
《生物信息学的现状与展望张春霆Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《生物信息学的现状与展望张春霆Word格式文档下载.docx(6页珍藏版)》请在冰豆网上搜索。
物的全基因组测序工作,人基因组约3×
109碱
基对的测序工作也接近完成。
至2000年6月
26日,被誉为生命“阿波罗计划”的人类基因组
计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学史上又一个里程碑式的事件。
它预示着完成人类基因组计划已经指日可待。
截止日前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。
在人类基因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更为快捷。
可以预计,今后DNA序列数据的增长将更为惊人。
生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。
此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。
基于cDNA序列测序所建立起来的EST数据
库其记录已达数百万条。
在这些数据的基础
上派生、整理出来的数据库已达500余个。
这
一切构成了一个生物学数据的海洋。
可以打
一个比方来说明这些数据的规模。
有人估计,
人类(包括已经去世的和仍然在世的所说过
的话的信息总量约为5唉字节(1唉字节等于
1018字节。
而如今生物学数据信息总量已经
接近甚至超过此数量级。
这种科学数据的急
速和海量积累,在人类的科学研究历史中是空
前的。
数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。
与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年所发表的生物、医学论文数来代表却十分缓慢。
一方面是巨量的数据;
另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高其生活质量。
这就构成了一个极大的矛盾。
这个矛盾就催生了一门新兴的交叉学科,这就是生物信息学。
美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下的定义:
生物信息学是一门交叉学科,它包含了生物信息的获取、处理、储存、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,
张春霆(ZHANGChunting,1936.9.19~,男,山东省烟台市人,中国科学院院士,生物信息学家。
1961年毕业于复旦大学物理系,1965年在该校研究生毕业。
现任天津大学教授,博士生导师。
张春霆院士是我国生物信息学的学术带头人之一,有较强的数学、物理和计算机基础,以此为背景专门从事生物信息学研究。
开拓了DNA序列分析中的几何学研究途径,建立了DNA序列的Z曲线理论,在基因识别、基因组注释等DNA序列分析中得到越来越广泛的应用。
提出了一系列球蛋白质结构类预测的新算法,对国际上的有关研究产生了推动作用。
在国外发表影响因子大于1的SCI的计算生物学和生物信息学论文60余篇,被他人引用二百余次。
1996年和1997年分别获国家教委科技进步一等奖和国家自然科学二等奖各一项,均为唯一完成人。
来阐明和理解大量数据所包含的生物学意义。
生物信息学这一名词的出现仅仅是几年前的事情,但是计算生物学这一名词的出现则要早得多。
鉴于这两门学科之间并没有或难以界定严格的分界线,在这里统称为生物信息学。
二、生物学数据库
《NucliecAcidsResearch》杂志连续七年在其每年的第一期中详细介绍最新版本的各种数据库。
在2000年1月1日出版的28卷第1期中详细地介绍了115种通用和专用数据库,包括其详尽描述和访问网址。
迄今为止,生物学数据库总数已达500个以上。
在DNA序列方面有GenBank、EMBL和DDBJ等。
在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。
在蛋白质和其他生物大分子的结构方面有PDB等。
在蛋白质结构分类方面有SCOP和CATH等。
应该指出,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。
但是鉴于相当多的数据库的经营者们面临着财务紧缺的境地,这种免费的局面还能维持多久就不得而知了。
有的数据库,如SWISS-PROT,已开始向商业用户每年收取数千至数万美元不等的使用费。
其它数据库暂时还是免费的,但不知是否永远免费。
如果一些重要的数据库对学术研究部门开始收费,这对于我国生物信息学的发展是非常不利的。
中国是一个基因信息资源大国,我们应当抓紧建设我国自有的数据库,在世界上做出我们自己的贡献,在平等的基础上与国外共享生物信息资源。
三、生物信息学的主要研究内容
生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名称并只做简单介绍。
1.序列比对(Alignment。
基本问题是比较两个或两个以上符号序列的相似性或不相似性。
序列比对是生物信息学的基础,非常重要。
两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包———BLAST和FAS-TA,可以免费下载使用。
这些软件在数据库查询和搜索中有重要的应用。
有时两个序列总体并不很相似,但某些局部片段相似性较高。
Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。
两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。
2.结构比对。
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。
已有一些算法。
3.蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。
从方法学上来看有演绎法和归纳法两种途径。
前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。
分子力学和分子动力学属于这一范畴。
后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。
同源模建和指认(Threading方法属于这一范畴。
虽然经过30余年的努力,蛋白质结构预测研究现状远远不能满足实际需要。
4.计算机辅助基因识别(仅指蛋白质编码基因。
基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。
这是最重要的课题之一,而且越来越重要。
经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。
原核生物计算机辅助基因识别相对容易些,结果好一些。
从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。
5.非编码区分析和DNA语言研究,是最重要的课题之一。
在人类基因组中,编码部分仅占总序列的3~5%,其它通常称为“垃圾”DAN,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。
分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。
DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。
6.分子进化和比较基因组学,是最重要的课题之一。
早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。
既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。
以上研究已经积累了大量的工作。
近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。
可以设想,比较两个或多个完整基因组这一工作需要新的思路和方法,当然也可望得到更丰硕的成果。
这方面可做的工作是很多的。
7.序列重叠群(Contigs装配。
一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列。
这就有一个把大量的较短的序列拼接成一个较长的、完整序列的任务。
显然,为了正确拼接,短的序列之间应有一部分重叠区。
所有相互部分重叠的序列全体构成了重叠群(Con-tigs。
逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。
拼接EST数据以发现全长新基因也有类似的问题。
已经证明,这是一个NP-完备性算法问题。
8.遗传密码的起源。
遗传密码为什么是现在这样的?
这一直是一个谜。
一种最简单的理论认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。
不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。
随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。
9.基于结构的药物设计。
人类基因组计划的目的之一在于阐明人的约10万种蛋白质的编码序列,从而了解蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。
基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。
为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。
这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。
10.其他。
如基因表达谱分析,代谢网络分析,基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。
这里不再赘述。
四、与生物信息学关系密切的数学领域
限于篇幅,仅列出它们的名称。
统计学,包括多元统计学,是生物信息学的数学基础之一;
概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM,在生物信息学中有重要应用;
运筹学,如动态规划法是序列比对的基本工具,最优化理论与算法,在蛋白质空间结构预测和分子对接研究中有重要应用;
拓扑学,这里指几何拓扑,在DNA超螺旋研究中是重要的工具,在多肽链折叠研究中也有应用;
函数论,如福里叶变换和小波变换等都是生物信息学中的常规工具;
信息论,在分子进化、蛋白质结构预测、序列比对中有重要应用,而人工神经网络方法则用途极为广泛;
计算数学,如常微分方程数值解法是分子动力学的基本工具;
群论,在研究遗传密码和DNA序列的对称性方面有重要应用;
组合数学,在分子进化和基因组序列研究中十分有用。
原则上讲,各种数学理论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息学,这种情况正像过去的一、两个世纪,数学应用于物理学一样。
而且,生物信息学的发展,又为数学的发展提供了一个新的机遇,可能会产生一些新的分支学科。
五、与生物信息学密切相关的计算机科学技术
首先是网络技术和数据库(特别是关系型数据库管理技术,包括极为重要的实验室数据信息管理系统(LIMS。
其它诸如数据整合和可视化、数据挖掘(DataMining、基于Unix操作系统的各种软件包以及人工智能,和一些重要算法的复杂性研究。
六、生物信息学工业
生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。
它既属于基础研究,以探索生物学自然规律为己任;
又属于应用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。
生物信息学的这一特点在现有的许多学科中几乎是独一无二的。
这里仅举一个例子来说明生物信息学工业的潜力。
据报导,只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Bayer公司。
又据报导,生物信息学产业的市场在1998年已经达到10亿美元,而到2002年估计可增长到2000亿美元以上。
这是一笔巨大的财富,任何政府的科技决策人都不能对此视而不见。
NIH已向美国国会建议投资160亿美元在美国建立5~20个将生物学与计算结合起来的中心。
法国议会科技决策评估办公室,最近评估了基因工程、生物信息学和组合化学等学科的应用前景及法国的对策。
美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切有关。
生物信息学工业是知识经济的一个典型,潜力巨大。
七、展望与建议
生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。
这一点必须着重指出。
预测生物信息学的未来主要就是要预测它对生物学的发展将带来什么样的根本性的突破。
这种预测是十分困难的,甚至几乎不可能。
但是人类科学研究史表明,科学数据的大量积累将导致重大的科学规律的发现。
例如:
对数百颗天体运行数据的分析导致了开普勒三大定律和万有引力定律的发现;
数十种元素和上万种化合物数据的积累导致了元素周期表的发现;
氢原子光谱学数据的积累促成了量子理论的提出,为量子力学的建立奠定了基础。
历史的经验值得注意,有理由认为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。
生物信息学的发展在国内、外基本上都处在起步阶段,所拥有的条件也大体相同,即使我国有关条件差一些,但差别也不大。
因此,这是我国生物学赶超国际先进水平的一个百年一遇的极好机会。
机不可失,时不再来,鉴于生物信息学在我国生物学和经济发展中的重要意义和其发展的紧迫性,因此,由国家出面组织全国的力量,搞个类似“两弹一星”那样的,但是规模要小的多的,花钱也少得多的生物信息学发展计划,不是不可以考虑的。
要充分发挥中央与地方,生物学科与非生物学科研究人员等方方面面的积极性。
生物信息学研究投资少,见效快,可充分发挥我国智力资源丰富的长处,是特别适合我国国情的一项研究领域。
要在大学里建立生物信息学专业,设立硕士点和博士点,培养专门人才。
可以组织一大批数学、物理、化学和计算机科技工作者,在自愿的基础上,学习有关的生物学知识,开展多方面的生物信息学研究。
经过十几年或更长时间的努力,逐渐使我国成为生物信息学研究强国,是完全有可能的。
TheCurrentStatusandTheProspectofBioinformatics
MemberofTheCAS ZHANGChunting
(InstituteofLifeScienceandBiotechnology,TianjinUniversity,Tianjin300072
Abstract:
InthispaperIpresentthebackground,biologicaldatabases,mainresearchareas,therelevantmathematicsandcomputerscience,theindustryandtheprospectofBioinformatics.SeveralideastodevelopBioinformaticsinChinahavebeenproposed.Ipointoutthatitisextremelyimportanttounderstandthebiologicalsignificanceofavarietyofse-quenceandstructuredatainthepost-genomeera.Bioinformaticswillplaymoreandmoreimportantroles.Itisbelievedthattheaccumulationofagreatamountofdatawouldleadtothediscoveryofimportantbiologicallaws.ThedevelopmentofBioinformaticsisbasicallyinitsearlystagebothinChinaandabroad.Therefore,itisanexcellentopportunityoccur-ringonlyonceinacenturytoattainandsurpassadvancedworldlevelsforbiologyinChina.
Keywords:
HumanGenomeProject,Bioinformatics
(责任编辑:
曙光
国外新闻
欧洲航天局通过未来6项航天计划
欧洲航天局近日正式通过了2008-2013年度的6大航天计划,这些计划涉及天文学研究、寻找外星生命及引力波探测等多个领域。
据介绍,该局的第一个计划是与美国国家航空航天局合作开发新一代太空望远镜(NGST。
这一计划目标是在2010年左右,用该望远镜取代目前使用的“哈勃”太空望远镜。
第二个计划是于2009年向水星发射新的太空探测器。
自从美国在1973年至1975年间向水星发射“水手10号”后,人类再也没有向这颗离太阳最近的行星发射过任何探测器。
欧洲计划发射的探测器的主要任务是:
研究水星表面并拍摄表面照片;
登陆水星,研究水星土壤;
利用日本制造的仪器测量水星的磁场。
第三个计划主要涉及星际探索。
根据这项计划,欧洲航天局将在2009年至2012年间发射两颗GAIA卫星,它们将精确地测量太空中十多亿颗恒星的位置,了解银河系的起源和历史。
此外,欧洲航天局还将于2013年左右发射埃丁顿卫星,任务是寻找遥远星系的小行星。
第四个计划被称为达尔文计划,其目的是在距地球几光年之遥的太空寻找生命存在的踪迹。
这一计划将在2010年后启动,它将使用6个太空望远镜。
第五个计划是与美国国家航空航天局合作,于2010年启动“莉萨”计划。
这项计划要发射3颗卫星,这3颗卫星将组成一个边长为500万公里的巨大三角形,它们之间将以激光束相连。
科学家们希望能够借此测量出3颗卫星中的某一颗是否会因太空中的相力塌缩而产生微弱的位置偏差,从而获得各种引力理论所预言的引力波真正存在的事实证据。
第六个计划是太阳探索计划,目的是获得太阳极地变化活动的清晰图像,了解太阳两极的有关情况。
(新华社供本刊稿
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 现状 展望 张春霆