临床遗传学常用的生物信息优质PPT.pptx
- 文档编号:13199850
- 上传时间:2022-10-08
- 格式:PPTX
- 页数:82
- 大小:2.81MB
临床遗传学常用的生物信息优质PPT.pptx
《临床遗传学常用的生物信息优质PPT.pptx》由会员分享,可在线阅读,更多相关《临床遗传学常用的生物信息优质PPT.pptx(82页珍藏版)》请在冰豆网上搜索。
基因定位、突变检测、基因型分析、疾病易感基因的关联分析、基因与蛋白的调控、结构与功能预测分析临床:
突变检测、基因型分析,和已知相关基因的信息查询和临床指导,生物信息学是现代遗传学研究的灵魂,遗传学数据量大一个人携带数百万的多态或突变2万余编码蛋白的基因表达,数十万甚至更多的剪接本,非编码调控基因、分子种类多SNVs,CNVs,INDELs,SVs可遗传的、新生的、体细胞的影响编码的,调控的数据到知识的转化依赖信息的分析与整合知识到临床实践的转化依赖信息的管理与发布,主要数据对象,遗传学数据表型数据,单基因病VS多基因病,?
突变与多态性,?
AmericanCollegeofMedicalGeneticsACMGMinimumList(56genes),AmbryExonscreen293genesfor229diseases,对临床医生最重要关键信息,DNA变异:
区分致病突变、易感基因与常见多态变异影响到的什么基因基因名称功能如果影响基因的功能蛋白质编码表达量,信息的有效性和适用范围,基因型与表型的关系可行动性(Actionable),大合作大数据的重要性,基因型与表型的关系BRCA1的突变为例人群中已经发现数千种变异,致病性如何?
常用数据库资源与工具,基因组与序列各类图谱序列基因组与表观基因组变异与表型OMIM,GWAScatalog,DNA变异数据查询,UCSCgenomebrowser(位置)http:
/genome.ucsc.edu/cgi-bin/hgTracks?
clade=mammal&
org=Human&
db=hg19&
position=BRAC1&
hgt.positionInput=BRAC1&
hgt.suggestTrack=knownGene&
Submit=submit&
hgsid=423900655_v4S6u9fIecnW2XqxxDOTaqapW1v3&
pix=1045NCBIClinVar(变异与疾病)http:
/www.ncbi.nlm.nih.gov/clinvar/?
term=PTEN%5Bgene%5D,基因的相关信息,GeneCardshttp:
/www.genecards.org/cgi-bin/carddisp.pl?
gene=BRCA1&
search=aa389e880a9c80096d5a96c63a2975f6,常见病的易感基因,GWASCataloghttp:
/www.genome.gov/page.cfm?
pageid=26525384#searchForm,基因表达的信息,BRCA1http:
search=aa389e880a9c80096d5a96c63a2975f6,遗传学以外的生物信息学,临床大数据人口资料影像学生理生化病理治疗与疗效生物测量可穿戴设备,计算需求,100TBPB存贮空间641000+CPU32-64+G内存并行运算,流程化,数据关联,备份,临床遗传学实验室的基本信息学装备与管理,计算机一般以Linux操作系统为佳,配以较大容量内存(16GB以上)、硬盘存贮空间(4TB以上),以及数据备份系统如需要处理原始NGS数据,则应需要高性能、上千CPU的并行计算机集群(cluster)或网格(grid)因分析处理的数据不同,会需要使用到以上提到的各类商业或非商业的软件、数据库。
而这些软硬件安装、使用、维护,都需要计算机专业人员提供,生物信息学的基本技能,大规模数据格式变换、处理常用数据库、软件的使用数据库管理与查询基本编程、计算,小结,临床遗传学的研究和应用建立在DNA测序及相关数据分析基础上临床遗传学实验室,尤其是分子遗传为手段的实验室,离不开生物信息的技术支持,熟练掌握数据分析方法、了解相关数据资源的专才是临床遗传学实验室的重要构成其他临床遗传学工作者也有必要对数据及分析方法、工具、及资源有基本的了解,对数据分析过程中涉及的数据文件类型有所了解生物信息学与大数据,分析流程,质控序列比对,拼装发现变异变异注释,基因定位,以家系或群体样本,通过连锁或关联分析,以统计概率判断基因在基因组中位置数据分析流程:
数据质量评估与控制、过滤确定基因型数据进一步过滤(按等位基因频率等)群体结构分析关联或连锁分析,分析软件,大体分为:
连锁分析基于家系数据的参数连锁(parametric)与非参数连锁(non-parametric)分析关联分析基于家系基于群体正常-对照也可分为单点分析和多点分析,还有数量性状分析及基因-基因相互作用分析等群体结构(populationstructure)分析针对全基因组的基因型数据不少软件兼有多种分析的功能,常用的家系关系和基因型错误检查软件,PedcheckPREST(PedigreeRElationshipStatisticalTest)Plink可在全基因组型数据中检查家系关系、孟德尔遗传错误及性别错误,Imputation软件,用于推测基因组中未分型的标记BeagleIMPUTEMACH,常用连锁分析软件,LINKAGE/FASTLINKGeneHunter和GeneHunter-PlusMerlinSOLARSimwalkFBAT/PBAT相关软件的总结对比可参考:
Dudbridge,F.Asurveyofcurrentsoftwareforlinkageanalysis.Hum.Genomics1,63-65(2003)http:
/www.soph.uab.edu/ssg/linkage/linkageanalysis,全基因组关联分析(GWAS)软件,Plink(http:
/pngu.mgh.harvard.edu/purcell/plink/)最广泛使用的软件GoldenHelix(http:
/&
VariationSuite(SVS)较为广泛使用的商用全基因组关联分析软件Bioconductor的GWASTools(http:
/www.bioconductor.org/packages/release/bioc/html/GWASTools.html)支持大型GWAS数据和注释的存储,及GWAS数据的清理和分析GCTA(http:
/(http:
/animalgene.umn.edu/)图形化工具,提供SNP影响效应图、GWAS结果视图,变异检测,变异检测,DNA变异常见类型:
单核苷酸多态(SNP)和短片段插入缺失(Indel)缺失(deletion)插入(insertion)倒位(inversion)易位(translocation)拷贝数变异(CNV)DNA测序是确定基因型的方法之一,更是在样本基因组中发现新变异的终极手段,DNA测序分析,针对单个小扩增片段进行的Sanger测序全基因组或全外显子组的第二代测序(Next-generationsequencing,NGS)第三代测序因目前暂未普及,应用较少,在此不做分析讨论,基于Sanger测序的数据分析,测序仪提供的数据分析软件,如:
ABI的SequencingAnalysisSoftware商业软件,处理原始测序数据trace文件(或称chromatogram)以识别变异,如:
DNASTAR的LasergeneGeneCodes的SequencherSoftgenetics的MutationSurveyor免费软件,如:
Phred/Phrap/Consed/PolyPhredSNPdetector,DNASTARhttp:
/,快速组装比对序列片段用即时互动视图和过滤工具检测和分析SNP可直接访问dbSNP、COSMIC和GERP数据库可大规模比较多个样本间或多个群体样本之间的SNP,并鉴定SNP对基因的影响程度,Lasergene工具包可分析Sanger测序和NGS数据,可从多个/群体样本的Sanger测序数据中鉴定和比较潜在的致病变异,Softgeneticshttp:
/,工具包MUTATIONSurveyor专门针对Sanger测序的序列进行变异检测可在15分钟之内分析由AppliedBiosystemsGeneticAnalyzers、MegaBACE或BeckmanCEQ电泳系统产生的高达2000个Sanger测序文件,支持多种格式分析结果SNP、Indel和体细胞变异具有较高的准确性和灵敏度能自动下载GenBank氨基酸序列,进行序列比对、DNA甲基化检测、多变区间的变异检测、杂合Indel的分解识别de-convolution(这是MUTATIONSurveyor的主要特色和卖点)、线粒体DNA序列分析和定量、自定义变异编码与报告等,杂合性Indel检测输出图例,图中正向显示一杂合性TT缺失的de-convolution,基于NGS的数据分析,项目总体流程,PabingerS,etal.BriefingsInBioinformatics,2013,NGS数据分析基本流程,NGS数据分析基本流程,原始下机数据转换成fastq格式测序质量评估,评估数据产量和质量,并根据需要去除接头污染和低质量序列,如:
FastQC可对Illumina和ABISOLiD测序序列质量进行快速评估FASTX-Toolkit和Galaxy即可评估序列质量,还可去除污染碱基和低质量碱基并对序列进行质量过滤将序列比对到参考基因组上,生成SAM或BAM文件比对工具如:
BWA,bowtie2,Illumina的HiseqAnalysisSoftware,SOAP等,FASTQ格式,FASTQ文件示例,该文件包含一条序列:
SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!
*(*+)%+)(%).1*-+*)*55CCFCCCCCCC65AFASTQ文件将每条序列用四行表示:
第一行以“”打头,后跟着序列ID,可加上序列描述(类似于FASTA文件的标题行);
第二行是序列内容;
第三行以+打头,后面的序列ID和描述可有可无;
第四行是第二行序列每个位点的质量值,字符个数必须与第二行完全相同。
变异检测运用GATK/MuTect/VarScan/Atlas2/Samtools/SVDetect/Polymutt等工具包,查找SNP和Indel、缺失、插入、倒位、易位、CNV等实践显示,多种不同软件共同识别的变异有更高的可靠性,因此有建议使用consensuscalls生成VCF(VariantCallFormat)文件变异注释运用Annovar、SeattleAnnotation、GenomeTrax等工具对每一变异筛查dbSNP、1000genomes、PolyPhen、SIFT、ESP、HGMD、OMIM、KEGGPathway、CNV、DGV等数据库,评估表型或疾病风险,VCF格式,#fileformat=VCFv4.0#fileDate=20110705#reference=1000GenomesPilot-NCBI37#phasing=partial#INFO=#INFO=#INFO=#INFO=#INFO=#INFO=#FILTER=#FILTER=#FORMAT=#FORMAT=#FORMAT=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 临床 遗传学 常用 生物 信息