宏基因组测序分析Metagenome

标签:
生物信息学 |
Metagenome测序平台,主流illumina
http://s2/mw690/002o29i7zy7cmuvaSSR81&690
http://s5/mw690/002o29i7zy7cmuvg8E404&690
http://s14/mw690/002o29i7zy7cmuvj4ER0d&690
http://s5/mw690/002o29i7zy7cmuvg8E404&690
http://s14/mw690/002o29i7zy7cmuvj4ER0d&690
测序前处理:
基因组拼接的流程
de novo定义:from the beginning(从头拼接), no reference genome
guided(无参考基因组)
三类de novo基因拼接的计算方法
1. Greedy:对于含重复区的序列拼接效果不好
2. Overlap Layout Consensus:耗时长,用于Sanger测序
2. de Bruijn:速度快、准确度高,目前NGS多采用此方法
测序深度和覆盖度:
测序深度(depth):测序得到的总碱基数与待测基因组大小的比值。例如E.
coli基因组大小为4Mbp,测序得到40Mbp的reads,则测序深度为10X。
Coverage>80%可形成“基因草图(draft genome)”
Draft genome需要30X的测序深度
1. 测序得到的Reads数:A>B>C
2. 测序深度或覆盖率(read depth or coverage):A>B>C
3.
根据所需测序深度决定测序通量:如果要得到C的基因草图(需要depth>=30X),则测序通量(总碱基数)=C的基因组碱基数*30/C%
scaffold=contigs+gaps(缺口)
Scaffold组装主要靠
与已知物种的基因组进行序列比对
paired read测序结果也提供了大量gap filling的信息
依然有大量缺口(gaps)
http://s3/mw690/002o29i7zy7cmuYSBZU62&690
(a) The 30 largest scaffolds
(b) Genes (blue)
Repeats (red)
Gaps (gray)
(c) Genomic SNP density
(d) Read coverage on genome
(e) Expressed gene SNP density
(f-g) Transcript coverage
(h) GC content