谷子ARF基因家族的鉴定与生物信息学分析.docx
- 文档编号:12033987
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:20
- 大小:612.83KB
谷子ARF基因家族的鉴定与生物信息学分析.docx
《谷子ARF基因家族的鉴定与生物信息学分析.docx》由会员分享,可在线阅读,更多相关《谷子ARF基因家族的鉴定与生物信息学分析.docx(20页珍藏版)》请在冰豆网上搜索。
谷子ARF基因家族的鉴定与生物信息学分析
谷子ARF基因家族的鉴定与生物信息学分析
赵艳1翁巧云1马海莲1宋晋辉1袁进成1王凌云1董志平2刘颖慧1*
1河北北方学院河北张家口075000
2 河北省农林科学院谷子研究所 河北石家庄050001
摘要:
生长素应答因子(auxinresponsefactors,ARF)是一类可以结合在生长素应答基因启动子部位的转录因子,在植物的生长发育中起至关重要作用。
本研究以谷子为材料,从谷子中鉴定出24个ARF基因并命名为SiARFs。
利用生物信息学对谷子SiARFs基因的结构、染色体分布、基因倍增模式、系统进化以及基因的表达模式进行分析。
结果表明,SiARF基因家族在染色体上不均匀的分布,在除2号染色体外的其它染色体上都有该家族基因,基因的扩增模式为分散复制与片段复制。
SiARFs基因家族具有相对保守的结构,即包含一个保守的B3DNA结构域,ARF结构域和Aux/IAA结构域,ARF蛋白的3D结构含有3个α螺旋和7个β折叠结构。
进化树分析表明谷子ARF蛋白和物种相近的高粱、玉米聚在一起。
大多数ARF基因在谷子根、茎、叶和穗中都有表达不同基因表达量有较大差异。
关键词:
谷子;ARF;生物信息学分析;蛋白结构
Genome-WideIdentificationandBioinformaticsAnalysisofARFGeneFamilyinSetariaItalica
Abstract:
Auxinresponsefactors(ARF)areimportanttranscriptionfactorsthatcanregulatetheexpressionofauxingenesandinfluencetheplantgrowth.ARFsregulatethetranscriptionofauxin-responsivegenesthroughbindingtotheirpromoters.Inthisstudy,atotalof24ARFgenesareidentifiedandanalyzedandnamedSiARF.AcomprehensiveoverviewoftheSiARFsisundertaken,includingphylogeneticanalysis,genestructuresanalysis,chromosomelocations,conservedmotifsofproteinsandgeneexpressionpatternanalysis.Twenty-foursetariaitalicaARFgenesaredistributedinallsetariaitalicachromosomesexceptchromosome.SetariaitalicaARFproteinsshareoneB3DNAbindingdomain,whichconsistsofthreeαhelixesandsevenβsheets.AndsomeoftheseproteinshaveanAux/IAAdomainandARFdomain.Inaddition,setariaitalicaARFproteinsarecomparedwiththeproteinsinotherspeciesinordertodiscovertheevolutionofARFgenes.OurresultsalsoshowthattheexpressionofSiARFgenesisdiverseindifferenttissues.
Keywords:
setariaitalica;ARF;informationanalysis;proteinstructure
通讯作者:
刘颖慧,教授,研究方向为植物基因工程,email:
leely519@
资助项目:
国家科技重大专项转“2014ZX0800909B”,十二五'农村领域国家科技计划项目“2011BAD06B01”,河北北方学院重大项目“ZD201305”
生长素(Auxin)是发现最早、研究最多、在植物体内普遍存在的植物激素。
生长素在植物的顶端优势、微管的分化、胚胎的分化、根和茎的形态建成等植物的生长和发育各个阶段都起重要的作用。
从分子水平上看,生长素在调节植物生长、发育过程需要一些生长素相关基因的表达和调控,这些基因包括Aux/IAA家族、GH3家族和小的受生长素调控的RNA家族(SAUR),以上的基因家族具有一个共性,即在它们的启动子区都含有被称为生长素应答元件的顺式作用元件(TGTCTC)[1]。
生长素应答因子(auxinresponsefactors,ARF)就是一些可以结合顺式应答元件介导生长素信号反应的转录因子家族。
作为生长素信号转导相关的主要蛋白组分之一,ARF蛋白主要在植物生长的初期或早期发挥作用,它可与生长素应答元件(AuxRE)结合,发挥催化和刺激作用,ARF也可与生长素结合,从而抑制与AuxRE的结合而发挥抑制作用[2]。
ARF蛋白包括3个保守的结构域,在N-端有植物特异的B3DNA-结合结构域(DBD),通常DBD不能结合生长素应答基因,该结构域是植物特有的而且保守性强;在中间具有激活结构域(AD)和抑制结构域(RD),如果ARF结合生长素应答元件就起到激活作用,如果结合生长素就起到抑制作用,中间的结构域决定ARF是发挥激活作用还是抑制作用,具有激活作用的结构域含有丰富的谷氨酰胺,抑制作用的结构域富含丝氨酸、脯氨酸、甘氨酸和色氨酸。
C-端是保守的结构域(CTD),CTD结构域负责ARF蛋白之间的同源聚集或者ARF蛋白和生长素应答基因的异源聚集,决定ARF的聚集状态[3]。
谷子(setariaitalica)在中国具有悠久的栽培历史,是中国北方的主要粮食之一。
谷子基因组小且为二倍体,与水稻、高粱、玉米共线性高,使其正成为禾本科基因组研究的模式植物之一,也成为研究C4植物的模式植物[4]。
目前谷子的全基因组测序已经完成,这为谷子分子生物学研究奠定了良好的基础[5]。
本研究利用生物信息学相关技术鉴定谷子的ARF基因家族并对该家族基因结构进行分析,通过对其序列和蛋白的比较分析以期为谷子生长素相关基因的研究提供一定的参考。
1.材料与方法
1.1谷子ARF基因的鉴定及序列分析
首先从Pfam数据库(http:
//pfam.xfam.org/)中下载ARF家族的隐马氏模型文件(Pfam号码:
PF06507)[6],从Gramene(http:
//www.gramene.org/)中通过Pfam号码进行相似性搜索,找到与谷子相关的基因ID及相关蛋白序列,除去冗余,得到所需的无重复的基因、转录本及蛋白ID、蛋白序列和外显子数量。
然后使用SMART(http:
//smart.embl-heidelberg.de/)和CDD(http:
//www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)检测蛋白结构域[7,8]。
最后,使用ProtParam(http:
//web.expasy.org/protparam/)找到与谷子ARF蛋白相关的其他信息,包括氨基酸数量、分子量以及等电点[9]。
1.2染色体定位分析
根据已经得到的基因信息,从EnsemblePlants中查询谷子染色体的长度(http:
//plants.ensembl.org/Setaria_italica/Info/Index),使用adobeillustratorCS5软件绘制染色体与基因位置。
1.3系统分析ARF蛋白与进化树的绘制
使用在线ProSite(http:
//prosite.expasy.org/)分析24个ARF蛋白序列,得出每个蛋白相应的B3结合结构域,ARF结构域和AUX/IAA结构域的位置[10]。
利用ClustalX在线分析所得到的ARF蛋白序列,下载得到分析结果[11],然后使用SequenceFormatConverter(http:
//genome.nci.nih.gov/tools/reformat.html)转换结构格式,最后使用MEGA6.0软件用邻接法绘制进化树,bootstrap设置为1000。
不同物种ARF蛋白进化树的绘制:
采用玉米(39个)、水稻(26个)、二穗短柄草(24个)、小立碗藓(14个)、葡萄(20个)、拟南芥(23个)和谷子(24个)的共170个ARF蛋白进行综合分析,用上述方法绘制ARF蛋白的进化树。
1.4Motif的获取和ARF蛋白的3D结构预测
得到ARF蛋白序列后,使用MEME工具(DNA结合结构域的motif,得到的序列使用SWISS-MODEL(http:
//swissmodel.expasy.org/workspace/index.php?
func=modelling_simple1)预测其三维结构[13]。
用上述方法绘制水稻、二穗短柄草、高粱、葡萄、小立碗藓、苜蓿、黄豆、玉米和拟南芥的B3DNA结合结构域3D结构,与谷子进行对比分析。
1.5谷子ARF基因的表达
使用GSCS2.0(
2.结果分析
2.1谷子ARF基因家族的鉴定
从Pfam数据库中下载ARF家族的隐马氏模型文件(Pfam号码:
PF06507),查找ARF蛋白Pfam号码用以查询相似序列,总结物种蛋白保守序列,搜索谷子基因组数据库,共获得近100个ARF类似基因,使用SMART和CDD检测蛋白序列结构域,检查缺失并除去冗余,得到确定含有ARF结构域的基因,最终获得24个谷子ARF基因序列,分别命名为SiARF1~SiARF24(表1)。
分析谷子24个ARF蛋白序列发现不同蛋白差异很大:
编码ARF蛋白的氨基酸长度范围从502AA(SiARF5)到1133AA(SiARF2),开放阅读框从7774bp(SiARF6)到2650bp(SiARF22),分子量范围从54.44kDa(SiARF5)到125.42kDa(SiARF2),等电点范围从5.45(SiARF1)到9.14(SiARF8),蛋白含2个(SiARF4)到16个(SiARF6)内含子。
从蛋白的基本特点可见ARF蛋白无论从序列的长度还是蛋白的特性变化都很大,表示该基因家族蛋白具有不同特性。
值得注意的是大多数ARF蛋白的等电点都小于7,表示多数ARF可能编码弱酸性的蛋白,在酸性的亚细胞环境中发挥作用。
表1谷子ARF基因家族的鉴定及特性
Table1.ThecharacteristicsofidentifiedARFgenefamilyinsetariaitalica
基因名
Gene
name
转录名
Genomic
accessionNo.
染色体
Chromosome
distribution
位置
Location
外显子数
No.of
extron
ORF长度
Openreadingfragmentlength
推测蛋白质
氨基酸(aa)
Aminoacid
分子量(kDa)
Molecular
mass
等电点(pI)
Isoelectric
point
SiARF1
Si016262m
1
6988236-6994089
14
5853
907
99.70
5.45
SiARF2
Si016147m
1
8014441-8021664
14
7223
1133
125.42
5.90
SiARF3
Si016563m
1
27687425-27693417
14
5992
673
74.92
5.76
SiARF4
Si016559m
1
31927912-31930608
2
2696
674
72.31
6.86
SiARF5
Si021833m
3
165527-168181
3
2654
502
54.44
5.75
SiARF6
Si021223m
3
1163363-1171137
16
7774
835
92.76
6.30
SiARF7
Si021121m
3
1711800-1716887
13
5087
937
103.13
5.79
SiARF8
Si021613m
3
10559853-10564252
9
4399
569
63.30
9.14
SiARF9
Si021589m
3
13481509-13485320
8
3811
579
64.25
8.33
SiARF10
Si021216m
3
40156796-40163069
15
6273
841
92.74
6.25
SiARF11
Si021157m
3
49528177-49534101
14
5924
897
98.86
5.66
SiARF12
Si005753m
4
2680870-2687092
13
6222
1054
116.39
6.09
SiARF13
Si005741m
4
36454277-36461451
13
7174
1084
120.73
6.12
SiARF14
Si005991m
4
37696443-37700049
3
3606
686
74.70
7.05
SiARF15
Si005802m
4
38058036-38064273
15
6237
931
102.78
5.95
SiARF16
Si000540m
5
322788-326738
12
3950
687
76.88
5.59
SiARF17
Si004598m
5
32737893-32742284
9
4391
667
73.75
6.42
SiARF18
Si000555m
5
37047017-37052754
10
5737
682
74.57
6.84
SiARF19
Si000415m
5
45466094-45471670
11
5576
754
84.62
7.60
SiARF20
Si013158m
6
32960517-32967626
13
7109
1096
121.32
6.13
SiARF21
Si009558m
7
20883443-20888473
14
5030
663
73.42
5.59
SiARF22
Si009541m
7
25115125-25117775
3
2650
677
72.67
8.05
SiARF23
Si025990m
8
26264617-27270550
15
5933
810
89.91
6.60
SiARF24
Si034525m
9
16301638-16305519
3
3881
684
74.71
6.71
2.2谷子ARF蛋白的结构域分析
利用ProSite软件分析每个ARF蛋白的结构域(图1),结果表明,所有谷子ARF蛋白都含有植物特异的B3DNA结合结构域和ARF结构域,且大部分序列都含有Aux/IAA结构域,但SiARF5、SiARF8、SiARF9、SiARF17、SiARF18、SiARF19和SiARF22含有2个结构域,即只含有B3DNA结合结构域和ARF结构域,没有Aux/IAA结构域。
利用MEME软件进一步分析谷子的24个ARF蛋白的结构域,研究表明三个结构域又可以细分为6个基序,B3DNA结合结构域含有1个基序,ARF结构域含有3个基序,Aux/IAA结构域含有2个基序。
B3DNA结合结构域的氨基酸组成较稳定,而ARF结构域和Aux/IAA结构域的序列变化较大,B3DNA结合结构域为植物特异性。
图1谷子ARF蛋白的组织示意图。
B3DNA结合结构域和AUX/IAA结构域分别用蓝色和橙色表示,ARF结构域位于中间部位,用绿色表示
Fig.1ThedomainstructureofARFproteins,blueboxesrepresentedB3domain,greenboxesrepresentedARFdomainandorangeboxesrepresentedAUX/IAAdomain.
2.3谷子ARF基因家族染色体定位和基因扩增方式
谷子共含有9条染色体,除2号染色体外,其余染色体上均含有ARF基因。
图2可见ARF基因分布并不均匀,6号、8号和9号染色体上各只有1个ARF基因,7号染色体上有2个ARF基因,1号、4号和5号染色体上有4个ARF基因,3号染色体上的ARF基因最多为7个(图2)。
在Phytozome数据库中通过Gbrowse查看成簇分布的ARF基因家族成员与侧翼蛋白质编码基因的位置关系,同一家族的不同成员如果位于同一个或相邻的基因间区域,则这些成员为串联重复关系,按照此标准,谷子ARF基因家族的扩增不是通过串联重复来扩增。
谷子ARF基因的扩增分为两种模式:
分散复制与片段复制。
分散复制的基因有:
SiARF1,SiARF5,SiARF6,SiARF7,SiARF9,SiARF10,SiARF11,SiARF12,SiARF14,SiARF16,SiARF19,SiARF20,SiARF23;片段复制的基因有:
SiARF2,SiARF3,SiARF4,SiARF8,SiARF13,SiARF15,SiARF17,SiARF18,SiARF21,SiARF22,SiARF24。
图2谷子ARF基因的染色体分布及扩增模式,箭头表示基因的方向
Fig.2ChromosomedistributionofARFgenesinsetariaitalicawasidentified,andgeneduplicationanalysisofARFswasalsorepresenteddirectionoftranscription
2.4谷子ARF基因家族分子进化树的构建
通过对ARF蛋白序列的对比,绘制出24个谷子ARF蛋白的进化树(图3a)。
根据进化树的分支,可以将这些蛋白分为三组,其中,组Ⅰ可以进一步被分为两组,即组Ⅰa和组Ⅰb,组Ⅰa的ARF蛋白具有3个保守的结构域,组Ⅰb蛋白具有2个结构域。
组Ⅰ占ARF蛋白多数,约42%的ARF蛋白位于组Ⅰ中(图3a)。
从进化树的聚类分析可见蛋白结构域相同的以及同一个基因的扩增或者复制的蛋白聚在一起,如SiARF3和SiARF21是片段复制的聚在一起,SiARF10和SiARF23为分散复制也聚在了一起,具有相同结构域的聚为一组。
为进一步研究ARF基因的特征,使用GSDS2.0软件分析已获得的DNA和RNA序列,得到谷子ARF基因的内含子-外显子结构(图3b)。
结果表明所有的ARF基因都具有内含子,内含子从2个(SiARF4)到16个(SiARF6),大多数基因的内含子在10个以上,从基因的结构特征可以初步分析基因的复制和扩增方式。
为了揭示谷子ARF基因家族的进化关系,将模式植物拟南芥ARF基因家族(23个)和玉米(39个)、水稻(26个)、二穗短柄草(24个)、小立碗藓(14个)、葡萄(20个)和谷子(24个)共170个ARF蛋白一起构建系统发育树,绘制ARF蛋白的进化树(图4)。
通过绘制的进化树可以看出,170个ARF蛋白可以聚为12个组,主要按进化的时间和亲缘关系聚类,按照进化分支可以分成8个不同的分支簇,单子叶植物、双子叶植物和苔藓类植物中的ARF蛋白呈现家族性聚集,不同纲目的植物间ARF蛋白也具有较高的同源性。
图3谷子ARF家族的系统发育和基因结构
图a谷子ARF蛋白的系统发育进化树。
24个基因可被分为3组,组Ⅰ可进一步分为两组。
图b谷子ARF基因结构图。
黄色表示编码区,蓝色表示上下游序列,黑线表示内含子区。
Fig.3PhylogeneticrelationshipsamongsetariaitalicaARFproteinsweregeneratedbyneighbor-joiningmethod.The24SiARFproteinswereclassifiedintothreeclasses:
I,II,III,andclassIwasfurtherdividedintotwo
sub-classesIaandIb.bGenestructureofSiARFgenes.Thecodingsequenceswererepresentedinyellow.Theupstreamanddownstreamwererepresentedinblue.Theintronswererepresentedbyblackgraylines.
图4ARF蛋白进化树。
单子叶(绿色)、双子叶(红色)、苔藓(黑色)
Fig.4PhylogenetictreeofARFproteinsinsetariaitalica,Arabidopsis,Zeamays,Oryzasativa,Brachypodiumdistachyon,PhyscomitrellapatensandVitisvinifera.The170ARFproteinswereclassifiedintofourclasses:
monocot-specificgroup(green),moss-specificgroup(black).
2.5谷子ARF蛋白的3D结构和保守序列分析
使用SWISS-MODEL软件构建ARF蛋白的3D结构。
结果显示,具有B3DNA结合结构域的ARF蛋白含有3个α螺旋结构域和7个β折叠结构域。
3个α螺旋分别位于β1和β2折叠、β2和β3折叠、β5和β6折叠之间(图5)。
第2个β-折叠片和连接环形成扳手状的结构,在此处可以为DNA的大沟结合留下大的空隙,在DNA识别和结合的位点处具有两个“DNA识别臂”可以和不同的位点识别,在蛋白的N-末端第2个β-折叠和2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 谷子 ARF 基因 家族 鉴定 生物 信息学 分析