16S信息分析报告2.docx
- 文档编号:4628106
- 上传时间:2022-12-07
- 格式:DOCX
- 页数:19
- 大小:22.46KB
16S信息分析报告2.docx
《16S信息分析报告2.docx》由会员分享,可在线阅读,更多相关《16S信息分析报告2.docx(19页珍藏版)》请在冰豆网上搜索。
16S信息分析报告2
16srDNA信息分析
1.标准信息分析(初级)
基本数据处理(
使用内部撰写的程序对原始的测序数据进行基本处理
)
通过
Illumina
平台(Miseq)进行
Paired-end测序,下机数据经过去除低质量
reads(Q20,90%
标准过滤),并trim掉reads2尾部100bp低质量序列;每个样品数据产出详细统计结果见
下表:
表1-1reads数据统计:
#Samples#HQreads(total)
#HQreads(mean±SD)
CA
17
110,651
6,509
±2,175
HC
19
163,690
8,615
±3,081
LK
13
127,416
9,801
±2,858
Total
49
401,757
8,199
±2,992
注:
原来的样本中
CA15由于原始Reads数太少(只有
23条)而被删除,因此目前的样本总数为
49个
去除barcode序列,引物序列及tags过滤
通过COPE软件(ConnectingOverlappedPair-End,),利用重叠关系将双末端测序得到
的成对reads组装成一条序列。
利用内部编写程序去除两端barcode序列,引物序列。
PairedEndReads通过
reads
之间的
overlap
(19
个碱基)关系拼接成
Tags;然后去掉
barcode序列,引物序列。
为了得到高质量的
Tags,将拼接的
Tags按照长度过滤,去嵌合
体等的处理。
(这里等的意思就是按照拼接条件过滤
:
1,
碱基的
ASCIIvalue值低于
33的过滤
掉。
取
19个碱基,这
19个碱基相互匹配率低于
98%的过滤掉。
3.去掉引物序列的时候,
允许一个错配,错配多于一个的过滤掉。
)
表1-2tags的详细信息
SampleID
RawTagNum
FinalTagnum
HC1
17560
17,319
HC2
9672
9,604
HC3
18053
17,826
HC4
12181
12,107
HC5
11558
11,477
HC8
11488
11,404
HC9
16354
16,095
HC10
21584
21,270
HC11
7989
7926
HC12
11561
11,449
HC13
24909
24,660
HC14
22979
22,736
HC15
20747
20,549
HC16
14857
14,728
HC17
21171
21,002
HC18
10700
10,605
HC19
11359
11,247
CA8
16203
16,040
CA10
10925
10,560
CA11
8254
7,690
CA12
9479
9,053
CA14
7947
7,584
CA16
8221
8,093
CA17
10666
10,479
CA18
10787
10,651
CA5
16344
16,154
CA9
6047
5,861
CA13
10290
10,165
2高级信息分析
OUT及其丰度分析
OUT统计
拼接的Tags经过优化后,在相似度下利用qiime()软件将其聚类为用于物种分类
的OTU(OperationalTaxonomicUnits),统计各个样品每个OTU中的丰度信息,OTU的丰度初步说明了样品的物种丰富程度。
49个样品共产生3029个OTU,其中SingletonsOTU(即丰度为1的OTU)个数为0,NonsingletonsOTU个数为3029。
表4.样品OUT统计
SampleName
OTUs
Tags
HC1
541
17,319
HC2
269
9,604
HC3
530
17,826
HC4
215
12,107
HC5
206
11,477
HC8
214
11,404
HC9
455
16,095
HC10
600
21,270
HC12
262
11,449
HC13
294
24,660
CA10
453
10,560
CA11
710
7,690
CA12
650
9,053
CA14
519
7,584
CA16
240
8,093
CA17
330
10,479
CA18
289
10,651
CA5
336
16,154
CA9
347
5,861
HC11
142
7,926
CA13
269
10,165
表5
OTU统计
Index
OTUnum
No.ofOTUs
3029
Assignedtofamilies
1,708
Assignedtogenera
1,172
Assignedtospecies
314
No.ofOTUspersample
368±147
Minno.ofOTUspersample
127
Maxno.ofOTUspersample
719
OTU分布的韦恩图如下:
在的相似度下,得到了每个样品的OTU个数,利用R()画图软件绘出Venn图可以展
示多样品共有和各自特有OTU数目,直观展示样品间OTU的重叠情况。
结合OTU所代表的
物种,可以找出不同环境中的核心微生物。
图2-1OTUvenn分析。
不同颜色图形代表不同样品或者不同组别,不同颜色图形之间交叠部分数字为两个
样品或两个组别之间共有的OTU个数。
同理,多个颜色图形之间交叠部分数字为多个样品或组别之间共有
OTU个数。
Venn图容许2-5个样品或组别。
OUT水平的PCA图如下:
R()画图软件
PCA分析(PrincipalComponentAnalysis),即主成分分析,是一种分析和简化数据集的技
术。
主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最
重要方面。
通过分析不同样品OTU(97%相似性)组成可以反映样品的差异和距离,PCA运
用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差值两个特
征值。
如果两个样品距离越近,则表示这两个样品的组成越相似。
不同处理或不同环境间的
样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成是否具有相似
性。
图2-2基于OTU丰度的PCA分析。
横坐标表示第一主成分,括号中的百分比则表示第一主成分对样品差异的贡献值;纵坐标表示第二主成分,括号中的百分比表示第二主成分对样品差异的贡献值。
图中点分别表示各个样品。
不同颜色代表样品属于不同的分组。
2.2Coremicrobiome分析
图表都是通过qiime()软件得到的
共有OTU数与样本数的关系:
图2-3覆盖所有样本的微生物组。
横坐标表示样品占的比率,纵坐标表示包含OUT的数目。
这些样本的coremicrobiome(即覆盖所有样本的微生物组)共包含17个OTUs,其物
种分类信息如下表2-1。
表2-1覆盖所有样本的OTUs
OTU
Taxonomylevel
Taxonomyname
400850
Genus
Streptococcus
437590
Genus
Capnocytophaga
368428
Species
dispar
645710
Genus
Campylobacter
417699
Genus
Fusobacterium
395972
Genus
Streptococcus
381841
Genus
Streptococcus
140702
Genus
Peptostreptococcus
413823
Genus
Granulicatella
645697
Genus
Campylobacter
414306
Genus
Neisseria
260777
Genus
Fusobacterium
2008
Genus
Neisseria
21908
Genus
Neisseria
645708
Genus
Campylobacter
414422
Family
Gemellaceae
1212GenusGranulicatella
生物多样性分析
单个样品复杂性分析
通过计算
Shannonindex,Chao1index,Phylogeneticdiversity(PD,wholetree)
和
observed
numberofspecies
共四个指数来进行生物多样性分析。
通过
qiime()软件计算样品的
Alpha
多样性值并用R()软件做出相应的稀释曲线,盒型图。
稀释曲线是利用已测得16SrDNA序列中已知的各种OTU的相对比例,来计算抽取n个
(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为
一组小于总序列数的等差数列)与其相对应的Alpha指数的期望值绘制曲线。
如样品有提供分组信息,且每组样品个数不小于
差异分析。
差异分析的检验方法为秩和检验,如果组数为
3,将对组间的Alpha多样性指数进行
2,采用两样品比较的Wilcoxon
Rank-SumTest(R中的);如果组数大于
2,采用多样品比较的
Kruskal-WallisTest(R中的)。
最后利用
Alpha
多样性指数绘制盒形图。
差异分析与作图均通过
R软件()进行。
基于OTU的结果,我们计算了样品的Alpha多样性(表2-2)。
Alpha多样性是对单个样
品中物种多样性的分析。
chao1多样性估算指数是根据所测得的tags数和OTU的数量以及相
对
比
例
来
表2-2样品的Alpha多样性
预
#Alpha
mean(CA)
mean(HC)
mean(LK)
p-vaule(CA-H
p-vaule(HC-LK
Pvalue(KW)
p-vaule(CA-LK)
测
C)
)
chao1
样
observed_species
品
16.
13.
15.
PD_whole_tree
中
2.
shannon
微
生
物
的
种
类
(
Rarefaction分析(样本不分组):
图2-4单个样品内的Alpha多样性
Rarefaction分析(样本分组):
图2-5每组样品内的Alpha多样性。
图中红色,黄色,蓝色线分别表示CA,HC,LK组的rarefaction分析结果
图2-6为组Alpha多样性盒形图,更直观显示组间Alpha多样性差异。
盒形图可以显示5个统计量(最
小值,第一个四分位数,中位数,第三个中位数和最大值,及由下到上的5条线),异常值以“o”标出。
Alpha多样性的比较,以Shannonindex为例可以看出多样性CA>LK>HC,其中CA/HC有
明显差异(P=,Student’sttest),而CA/LK,HC/LK差异不显著
样品间复杂度比较分析
Beta多样性(Betadiversity)分析是用来比较一对样品在物种多样性方面存在的差异大
小。
本分析中通过QIIME()软件,采用迭代算法,分别在加权物种分类丰度信息和不加权
物种分类丰度信息的情况下,随机抽取各样品中75%Reads单独进行差异计算,
迭代100次
之后综合统计得到最终的统计分析结果表及
PCoA展示图。
Beta多样性热图使用R()软件中的NMF包的aheatmap进行作图。
UniFrac是通过利用系统进化的信息来比较样品间的物种群落差异。
其计算结果可以作为
一种衡量betadiversity的指数,它考虑了物种间的进化距离,该指数越大表示样品间的差异
越大。
报告中给出的UniFrac结果分为加权UniFrac(weightedUniFrac)与非加权UniFirac
(unweightedUniFrac)2种,其中weightedUniFrac考虑了序列的丰度,unweightedUniFrac
不考虑序列丰度。
从下面盒形图看,CA组内的物种丰度最大。
WeightedUnifracUnweightedUnifrac
图2-7Beta多样性的盒形图
Unifrac距离的主坐标分析(PCoA)如下:
WeightedUnifracUnweightedUnifrac
图2-8Beta多样性的主坐标分析(PCoA)图。
如果两个样品距离越近,则表示这两个样品的组成越相似。
不同处理或不同环境间的样品可能表现出分散和聚集的分布情况,从而可以判断相同条件的样品组成
是否具有相似性。
图2-9UniFrac距离分布
heatmap。
通过对
UniFrac结果的聚类,具有相似
beta多样性的样品聚类在一起,
反应了样品间的相似性。
物种组成分析
本分析中分组后各水平的分类比较柱形图是用QIIME()软件得到的,单个样品的群落
分布柱形图和盒型图是根据QIIME()软件计算的结果用R()软件画的。
样品的群落分布图,直观的反应各样品的群落组成。
从门水平的群落分布图中可以看出,
在这批样品中,占主要地位的门有Firmicutes,Proteobacteria。
门(phylum)水平比较
图2-10分组后门水平的分类比较。
从左至右分别为CA,HC,LK的物种组成。
图2-11样品的门水平群落分布图
纲(class)水平比较
图2-12分组后纲水平的分类比较。
从左至右分别为CA,HC,LK的物种组成。
图2-13样品的纲水平群落分布图
属(genus)水平比较
图2-14样品的属水平群落分布图
含量最高的25个属的物种组成如下:
可以看出,这些样本中含量最高的属为Streptococcus,Neisseria,Neisseriaceae(family),
Campylobacter,Bacillus,Gemellaceae,TM7-3
多组样本的比较分析
下面的表格都是通过QIIME()软件计算出的,热图是用R()软件画的。
OTU水平的比较分析
下表是在不同组样本间有显著差异的OTUs(P<,Kruskal-Wallistest),共35个
OTU
Pvalue
CA_meanHC_meanLK_mean
Lineage
1082539
s_Streptococcus_infantis
1034052
s_Streptococcus_infantis
s_Streptococcus_infantis
s_Streptococcus_infantis
561537
s_Selenomonas_noxia
2714267
s_Prevotella_tannerae
968675
s_Haemophiluspara_influenzae
168817
s_Capnocytophaga_ochracea
s_Campylobacter_rectus
s_Actinobacillus_porcinus
0
o_Lactobacillales
o_Gemellales
931950
g_Streptococcus
4320317
g_Streptococcus
4416763
g_Streptococcus
269907
g_Prevotella
324532
g_Leptotrichia
4305791
0
g_Cardiobacterium
4294954
g_Capnocytophaga
1010329
g_Capnocytophaga
1098655
0
g_Bacillus
OTU19
g_Abiotrophia
4321136
f_Streptococcaceae
f_Streptococcaceae
OTU2
f_Pasteurellaceae
f_Neisseriaceae
f_Neisseriaceae
1101669
f_Gemellaceae
f_Clostridiaceae
851704
f_Clostridiaceae
1090059
f_Carnobacteriaceae
949789
f_Carnobacteriaceae
1065974
f_Carnobacteriaceae
OTU10
0
c_Bacilli
p_Firmicutes
属水平的比较分析
首先,PCA分析能够看出
3组样本之间有一定程度的差异:
其次,通过Kruskal-Wallistest分析可以找出在不同组间有明显差异
(P<的属如下(共
19个属
或科):
CA_meanHC_mean
LK_mean
Pvalue
g_Streptococcus
g_Campylobacter
g_Bacillus
0
f_Gemellaceae
f_Carnobacteriaceae
g_Haemophilus
g_Lautropia
g_Abiotrophia
g_Actinobacillus
o_Bacteroidales
o_Lactobacillales
g_Enterococcus
0
f_Pasteurellaceae
g_Cardiobacterium
p_Proteobacteria
g_Stenotrophomonas
0
g_Moraxella
0
0
g_Yersinia
0
0
f_Bacillaceae
0
为了直观,这些属比较的热图如下:
可以看出,在CA组富集的属为Campylobacter,Bacteroidales,Lactobacillales,Pasteurellaceae,
Moraxella等;
在HC组富集的属为Streptococcus,Gemellaceae,Lautropia,Abiotrophia;
在LK组富集的属为Bacillus,Carnobacteriaceae,Haemophilus,Actinobacillus,Enterococcus,Cardiobacterium,Stenotrophomonas,Yersinia等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 16 信息 分析 报告
![提示](https://static.bdocx.com/images/bang_tan.gif)