加载中…
个人资料
fanyucai
fanyucai
  • 博客等级:
  • 博客积分:0
  • 博客访问:12,689
  • 关注人气:378
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

16srRNA医学应用学习笔记

(2018-10-30 12:11:11)
分类: 生物信息学
https://rdp.cme.msu.edu/seqmatch/seqmatch_intro.jsp
https://github.com/rdpstaff/SequenceMatch

原始数据fastq格式使用cutadapt去掉接头以及引物序列,质量控制使用的阈值是20,长度过滤是指过滤到短于扩增长度75%的序列,将fastq转换成fasta,与从NCBI下载的序列使用blast+进行比对,比对参数选择:相似性选择为98% evalue阈值选择为1e-50

从CNBI上下载的序列需要使用RDP中的seqmatch对序列进行整理,参考序列中包含模糊分类注释的比如:‘marine bacterium’, ‘arsenic-oxidizing’这样的序列去掉,其中参数选择可以参考下面文献。

Watts G S, YouensClark K, Slepian M J, et al. 16S rRNA gene sequencing on a benchtop sequencer: accuracy for identification of clinically important bacteria[J]. Journal of applied microbiology, 2017, 123(6): 1584-1596.

2:PGM官方的16s rRNA
实验是经过两轮扩增:
1)试管1:扩增2、4、8可变区,扩增长度分别为:~250bp、~288bp、~295bp
2)试管2:扩增3,6-7,9可变区,扩增长度分别为:~215bp、~260bp、~209bp
3)引物设计可覆盖Greengenes数据库80%的数据
Chip type
Sample complexity low
(10)
Medium
(20)
High
(>30)
314 4 2 1
316 20 10 2
318 40 20 4
预计每个样本测序数据量为350,000条reads
4)自身集成了微生物数据库MicroSEQ®,如果比对不上再去比对Greengenes数据库,主要是基于blast的比对方式
5)物种分类是基于Clinical and Laboratory Standards Institute (CLSI)标准,科(<97%)、属(>97%)、种(>99%)
6) Ion ReporterTM Software分析数据的时候在去掉primer的过程中允许错判的碱基数为3,另外对于有效reads的定义是指要一端又匹配的primer就可以,也可以设置的严格一点

3:从宏基因组数据中寻找病原微生物

Naccache S N, Federman S, Veeeraraghavan N, et al. A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples[J]. Genome research, 2014.

4:在文献Sabat A J, Zanten E, Akkerboom V, et al. Targeted next-generation sequencing of the 16S-23S rRNA region for culture-independent bacterial identification-increased discrimination of closely related species[J]. Scientific Reports, 2017, 7(1): 3434.种采用了基于16S-23S rRNA的临床样本种水平检测
(23S rRNA全长2900bp)扩增全长,片段回收200-1000bp的片段, Illumina MiSeq测序,使用SeqMan NGen software(DNASTAR)进行拼接,拼接使用kmer=31,最小相似性匹配是93%,整个扩增片段长度在4000多bp左右,本篇文章在选取23S rRNA引物的时候参考文献为:Hunt D E, Klepac-Ceraj V, Acinas S G, et al. Evaluation of 23S rRNA PCR primers for use in phylogenetic studies of bacterial diversity[J]. Applied and environmental microbiology, 2006, 72(3): 2221-2225.

5:MLST+
基于官方的Ion PGMTM System平台,分析软件为:Ion TorrentTM RidomTM SeqSphere+ Software,目前普遍使用的方法是扩增大概5-7个管家基因,在这个平台上集成了约1241个基因,在官方的测试文档中除了使用7个常规的管家基因(abcZ, adk, aroE, fumC, gdh, pdhC, pgm)还使用了13个额外的管家基因用于进化分析,此外还包括用于常规测试抗生素抗性基因(penA and rpoB ),血清和抗元分型使用的基因是(PorA, PorB, and FetA ),总共使用了32个目标基因。主要用于流行病中的菌株分析,研究其结构变异。组装软件使用的是 MIRA v3.9.4
Mellmann A, Harmsen D, Cummings C A, et al. Prospective genomic characterization of the German enterohemorrhagic Escherichia coli O104: H4 outbreak by rapid next generation sequencing technology[J]. PloS one, 2011, 6(7): e22751.

6:nanopore
使用blasr和last比对
Kilianski A, Haas J L, Corriveau E J, et al. Bacterial and viral identification and differentiation by amplicon sequencing on the MinION nanopore sequencer[J]. Gigascience, 2015, 4(1): 12.

7:CLSI 美国临床和实验室标准协会
Park G, Jin W Y, Jang S J, et al. Evaluation of four methods of assigning species and genus to medically important bacteria using 16S rRNA gene sequence analysis[J]. Microbiology and immunology, 2015, 59(5): 285-298.
在这篇文章中比较了 Clinical and Laboratory Standards Institute (CLSI), modified CLSI (mCLSI), phylogenetic analysis (PA) and closest match (CM)四种方法在物种分类的准确性,扩增测序使用的是16s rRNA全长。最终该文章推荐mCLSI
相似度 序列类型 相似度 结构名称 评述
>=99.0% 模式菌株 属名或种名
>=99.0% 模式菌株 否(与其他多个种的相似度差小于0.8%) 属名和多个种名 低鉴定度的鉴定
97.0-98.9% 模式菌株或有效命名的菌株 能与其他属区分 需注明“亲缘关系最近的菌种”
95.0-96.9% 模式菌株或有效命名的菌株

可能的新属新种,并注明“亲缘关系最近的菌属”
<95% 模式菌株或有效命名的菌株

可能的新属新种
8:Species-level microbiome analysis using EzBioCloud
兼容常规的16s rRNA分析软件QIIME/MOTHUR,而且该云端数据库也已经被应用到临床中(https://help.ezbiocloud.net/bacterial-identification-in-clinical-diagnostic-laboratories-using-16s-sequences/)

9: 借助nanopore宏基因组测序来判断骨科器械感染(例如义肢),其中样本中来自于人的污染约占测序数据量的80%-97%,该文章建立了一个分析管道,物种分类使用的是Centrifuge软件,该软件在建立index的时候使用的是来自NCBI Refseq数据库的细菌、病毒以及人的基因组。此外在测序数据中排出一些低复杂度的重复序列使用的软件是dustmasker

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有