16srRNA医学应用学习笔记
(2018-10-30 12:11:11)分类: 生物信息学 |
https://rdp.cme.msu.edu/seqmatch/seqmatch_intro.jsp
https://github.com/rdpstaff/SequenceMatch
原始数据fastq格式使用cutadapt去掉接头以及引物序列,质量控制使用的阈值是20,长度过滤是指过滤到短于扩增长度75%的序列,将fastq转换成fasta,与从NCBI下载的序列使用blast+进行比对,比对参数选择:相似性选择为98%
evalue阈值选择为1e-50
从CNBI上下载的序列需要使用RDP中的seqmatch对序列进行整理,参考序列中包含模糊分类注释的比如:‘marine
bacterium’, ‘arsenic-oxidizing’这样的序列去掉,其中参数选择可以参考下面文献。
Watts G S, YouensClark K, Slepian M J, et
al. 16S rRNA gene sequencing on a benchtop sequencer: accuracy for
identification of clinically important bacteria[J]. Journal of
applied microbiology, 2017, 123(6): 1584-1596.
2:PGM官方的16s rRNA
实验是经过两轮扩增:
1)试管1:扩增2、4、8可变区,扩增长度分别为:~250bp、~288bp、~295bp
2)试管2:扩增3,6-7,9可变区,扩增长度分别为:~215bp、~260bp、~209bp
3)引物设计可覆盖Greengenes数据库80%的数据
Chip type |
Sample
complexity low
(10)
|
Medium
(20)
|
High
(>30)
|
314 | 4 | 2 | 1 |
316 | 20 | 10 | 2 |
318 | 40 | 20 | 4 |
预计每个样本测序数据量为350,000条reads
4)自身集成了微生物数据库MicroSEQ®,如果比对不上再去比对Greengenes数据库,主要是基于blast的比对方式
5)物种分类是基于Clinical and Laboratory Standards
Institute (CLSI)标准,科(<97%)、属(>97%)、种(>99%)
6) Ion ReporterTM
Software分析数据的时候在去掉primer的过程中允许错判的碱基数为3,另外对于有效reads的定义是指要一端又匹配的primer就可以,也可以设置的严格一点
3:从宏基因组数据中寻找病原微生物
Naccache S N, Federman S, Veeeraraghavan N, et al. A
cloud-compatible bioinformatics pipeline for ultrarapid pathogen
identification from next-generation sequencing of clinical
samples[J]. Genome research, 2014.
4:在文献Sabat A J, Zanten E, Akkerboom V, et al.
Targeted next-generation sequencing of the 16S-23S rRNA region for
culture-independent bacterial identification-increased
discrimination of closely related species[J]. Scientific Reports,
2017, 7(1): 3434.种采用了基于16S-23S rRNA的临床样本种水平检测
(23S rRNA全长2900bp)扩增全长,片段回收200-1000bp的片段,
Illumina MiSeq测序,使用SeqMan NGen
software(DNASTAR)进行拼接,拼接使用kmer=31,最小相似性匹配是93%,整个扩增片段长度在4000多bp左右,本篇文章在选取23S
rRNA引物的时候参考文献为:Hunt
D E, Klepac-Ceraj V, Acinas S G, et al. Evaluation of 23S rRNA PCR
primers for use in phylogenetic studies of bacterial diversity[J].
Applied and environmental microbiology, 2006, 72(3):
2221-2225.
5:MLST+
基于官方的Ion PGMTM System平台,分析软件为:Ion TorrentTM RidomTM
SeqSphere+
Software,目前普遍使用的方法是扩增大概5-7个管家基因,在这个平台上集成了约1241个基因,在官方的测试文档中除了使用7个常规的管家基因(abcZ,
adk, aroE, fumC, gdh, pdhC,
pgm)还使用了13个额外的管家基因用于进化分析,此外还包括用于常规测试抗生素抗性基因(penA and rpoB
),血清和抗元分型使用的基因是(PorA, PorB, and FetA
),总共使用了32个目标基因。主要用于流行病中的菌株分析,研究其结构变异。组装软件使用的是 MIRA
v3.9.4
Mellmann A, Harmsen D, Cummings C A, et al. Prospective
genomic characterization of the German enterohemorrhagic
Escherichia coli O104: H4 outbreak by rapid next generation
sequencing technology[J]. PloS one, 2011, 6(7):
e22751.
6:nanopore
使用blasr和last比对
Kilianski A, Haas J L, Corriveau E J, et al. Bacterial
and viral identification and differentiation by amplicon sequencing
on the MinION nanopore sequencer[J]. Gigascience, 2015, 4(1):
12.
7:CLSI 美国临床和实验室标准协会
Park G, Jin W Y, Jang S J, et al. Evaluation of four
methods of assigning species and genus to medically important
bacteria using 16S rRNA gene sequence analysis[J]. Microbiology and
immunology, 2015, 59(5): 285-298.
在这篇文章中比较了 Clinical and Laboratory Standards Institute
(CLSI), modified CLSI (mCLSI), phylogenetic analysis (PA) and
closest match (CM)四种方法在物种分类的准确性,扩增测序使用的是16s
rRNA全长。最终该文章推荐mCLSI
相似度 | 序列类型 | 相似度 | 结构名称 | 评述 |
>=99.0% | 模式菌株 | 是 | 属名或种名 |
|
>=99.0% | 模式菌株 | 否(与其他多个种的相似度差小于0.8%) | 属名和多个种名 | 低鉴定度的鉴定 |
97.0-98.9% | 模式菌株或有效命名的菌株 | 能与其他属区分 | 属 | 需注明“亲缘关系最近的菌种” |
95.0-96.9% | 模式菌株或有效命名的菌株 |
|
|
可能的新属新种,并注明“亲缘关系最近的菌属” |
<95% | 模式菌株或有效命名的菌株 |
|
|
可能的新属新种 |
8:Species-level microbiome analysis using
EzBioCloud
兼容常规的16s
rRNA分析软件QIIME/MOTHUR,而且该云端数据库也已经被应用到临床中(https://help.ezbiocloud.net/bacterial-identification-in-clinical-diagnostic-laboratories-using-16s-sequences/)
9:
借助nanopore宏基因组测序来判断骨科器械感染(例如义肢),其中样本中来自于人的污染约占测序数据量的80%-97%,该文章建立了一个分析管道,物种分类使用的是Centrifuge软件,该软件在建立index的时候使用的是来自NCBI
Refseq数据库的细菌、病毒以及人的基因组。此外在测序数据中排出一些低复杂度的重复序列使用的软件是dustmasker