16srRNA医学应用学习笔记_fanyucai

http://blog.sina.com.cn/u/2214034580

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

16srRNA医学应用学习笔记

(2018-10-30 12:11:11)

分类：生物信息学

https://rdp.cme.msu.edu/seqmatch/seqmatch_intro.jsp

https://github.com/rdpstaff/SequenceMatch

原始数据fastq格式使用cutadapt去掉接头以及引物序列，质量控制使用的阈值是20，长度过滤是指过滤到短于扩增长度75%的序列，将fastq转换成fasta,与从NCBI下载的序列使用blast+进行比对，比对参数选择：相似性选择为98% evalue阈值选择为1e-50

从CNBI上下载的序列需要使用RDP中的seqmatch对序列进行整理，参考序列中包含模糊分类注释的比如：‘marine bacterium’, ‘arsenic-oxidizing’这样的序列去掉，其中参数选择可以参考下面文献。

Watts G S, YouensClark K, Slepian M J, et al. 16S rRNA gene sequencing on a benchtop sequencer: accuracy for identification of clinically important bacteria[J]. Journal of applied microbiology, 2017, 123(6): 1584-1596.

2:PGM官方的16s rRNA

实验是经过两轮扩增：

1）试管1:扩增2、4、8可变区，扩增长度分别为：～250bp、～288bp、～295bp

2）试管2：扩增3，6-7，9可变区，扩增长度分别为：～215bp、～260bp、～209bp

3)引物设计可覆盖Greengenes数据库80%的数据

Chip type	Sample complexity low (10)	Medium (20)	High (>30)
314	4	2	1
316	20	10	2
318	40	20	4

预计每个样本测序数据量为350,000条reads

4)自身集成了微生物数据库MicroSEQ®，如果比对不上再去比对Greengenes数据库，主要是基于blast的比对方式

5）物种分类是基于Clinical and Laboratory Standards Institute (CLSI)标准，科（<97%）、属（>97%）、种（>99%）

6) Ion ReporterTM Software分析数据的时候在去掉primer的过程中允许错判的碱基数为3，另外对于有效reads的定义是指要一端又匹配的primer就可以，也可以设置的严格一点

3:从宏基因组数据中寻找病原微生物

Naccache S N, Federman S, Veeeraraghavan N, et al. A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples[J]. Genome research, 2014.

4:在文献Sabat A J, Zanten E, Akkerboom V, et al. Targeted next-generation sequencing of the 16S-23S rRNA region for culture-independent bacterial identification-increased discrimination of closely related species[J]. Scientific Reports, 2017, 7(1): 3434.种采用了基于16S-23S rRNA的临床样本种水平检测

(23S rRNA全长2900bp)扩增全长，片段回收200-1000bp的片段， Illumina MiSeq测序,使用SeqMan NGen software(DNASTAR)进行拼接，拼接使用kmer=31,最小相似性匹配是93%，整个扩增片段长度在4000多bp左右，本篇文章在选取23S rRNA引物的时候参考文献为：Hunt D E, Klepac-Ceraj V, Acinas S G, et al. Evaluation of 23S rRNA PCR primers for use in phylogenetic studies of bacterial diversity[J]. Applied and environmental microbiology, 2006, 72(3): 2221-2225.

5:MLST+

基于官方的Ion PGMTM System平台，分析软件为：Ion TorrentTM RidomTM SeqSphere+ Software，目前普遍使用的方法是扩增大概5-7个管家基因，在这个平台上集成了约1241个基因，在官方的测试文档中除了使用7个常规的管家基因（abcZ, adk, aroE, fumC, gdh, pdhC, pgm）还使用了13个额外的管家基因用于进化分析，此外还包括用于常规测试抗生素抗性基因（penA and rpoB ），血清和抗元分型使用的基因是（PorA, PorB, and FetA ），总共使用了32个目标基因。主要用于流行病中的菌株分析，研究其结构变异。组装软件使用的是 MIRA v3.9.4

Mellmann A, Harmsen D, Cummings C A, et al. Prospective genomic characterization of the German enterohemorrhagic Escherichia coli O104: H4 outbreak by rapid next generation sequencing technology[J]. PloS one, 2011, 6(7): e22751.

6:nanopore

使用blasr和last比对

Kilianski A, Haas J L, Corriveau E J, et al. Bacterial and viral identification and differentiation by amplicon sequencing on the MinION nanopore sequencer[J]. Gigascience, 2015, 4(1): 12.

7:CLSI 美国临床和实验室标准协会

Park G, Jin W Y, Jang S J, et al. Evaluation of four methods of assigning species and genus to medically important bacteria using 16S rRNA gene sequence analysis[J]. Microbiology and immunology, 2015, 59(5): 285-298.

在这篇文章中比较了 Clinical and Laboratory Standards Institute (CLSI), modified CLSI (mCLSI), phylogenetic analysis (PA) and closest match (CM)四种方法在物种分类的准确性，扩增测序使用的是16s rRNA全长。最终该文章推荐mCLSI

相似度	序列类型	相似度	结构名称	评述
>=99.0%	模式菌株	是	属名或种名
>=99.0%	模式菌株	否（与其他多个种的相似度差小于0.8%）	属名和多个种名	低鉴定度的鉴定
97.0-98.9%	模式菌株或有效命名的菌株	能与其他属区分	属	需注明“亲缘关系最近的菌种”
95.0-96.9%	模式菌株或有效命名的菌株			可能的新属新种，并注明“亲缘关系最近的菌属”
<95%	模式菌株或有效命名的菌株			可能的新属新种

8:Species-level microbiome analysis using EzBioCloud

兼容常规的16s rRNA分析软件QIIME/MOTHUR，而且该云端数据库也已经被应用到临床中（https://help.ezbiocloud.net/bacterial-identification-in-clinical-diagnostic-laboratories-using-16s-sequences/）

9: 借助nanopore宏基因组测序来判断骨科器械感染（例如义肢），其中样本中来自于人的污染约占测序数据量的80%-97%，该文章建立了一个分析管道，物种分类使用的是Centrifuge软件，该软件在建立index的时候使用的是来自NCBI Refseq数据库的细菌、病毒以及人的基因组。此外在测序数据中排出一些低复杂度的重复序列使用的软件是dustmasker

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：肿瘤突变负荷(TumorMutationBurden，TMB)

后一篇：GATK+spark学习笔记

新浪BLOG意见反馈留言板　欢迎批评指正