原核泛基因组分析管道-Roary

分类: 生物信息学 |
1:文章:2015-Roary: rapid large-scale prokaryote
pan genome analysis
原理图如下:
2:网址:http://sanger-pathogens.github.io/Roary
3:组装使用的是Velvet
Optimiser, and annotated using Prokka
4:预测的编码序列中碱基N含量超过5%的核苷酸,长度短于120bp去掉,序列必须有起始和终止密码子
5:先用cd-hit进行初步筛选,相似性100%且在各个所选物种中都出现的序列作为core-gene,重复序列使用SegMasker过滤掉。筛选完的序列,使用blasp进行多对多聚类,并把结果输入到MCL中。
6:使用基因和SNP数据,借助FastTree构建进化树。
7:如果两个基因的重叠区域超过10%(最少4个碱基)在不同的开放阅读框内,则认为misprediction
8:研究旁系同源通过conserved
gene neighbourhood (CGN),基于k-means
聚类,All
results presented here uses a neighbourhood radius of 5 (5 genes
before and 5 genes after).
前一篇:关于细菌抗生素基因的注释