使用GenBlastA与genBlastG来预测基因
(2018-01-10 15:55:04)分类: 生物信息学 |
1:关于基因预测重要的一环是提供近源物种的蛋白质序列,然后将蛋白质序列比对到基因组序列上寻找可能能到编码位置。
2:一般的方法是首先是使用blast将蛋白质序列比对到基因上,然后找到相关的位置,提取这些位置,然后再使用genewise,但是这一过程似乎写代码比较麻烦
3:在网上查询了一些文献似乎GenBlastA与genBlastG这两个软件可以做这件事情
4:对于蛋白质序列来源我查阅了以下文献,希望对你做基因预测有帮助:
文献1测序的是蝴蝶,收集的蛋白质序列是UniRef90数据库中所有来自昆虫的蛋白,使用的软件是genblastG
Cong Q, Shen J, Borek D, et al. Complete genomes of Hairstreak
butterflies, their speciation, and nucleo-mitochondrial
incongruence[J]. Scientific reports, 2016, 6.
文献2蛋白质数据来源于UniProt
database,contig长度小于500bp并不用于基因预测,在比对结果中相似性小于90%,比对alignment
coverage<0.5的都被排除在外。 使用的软件genBlastG
http://onlinelibrary.wiley.com/doi/10.1111/tpj.12254/full
文献3蛋白质序列数据除了来源于UniProt所有真菌还包含了先前使用Augustus以及GeneMark-ES预测的结果,比对使用blastp,分析使用的是GenBlastG,阈值选取的是1e-10,这个结果再作为genewise的输入,在genewise比对分析中覆盖度至少要达到80%
Eyzaguirre J, Mardones W, Di Genova A, et al. The genome
sequence of the soft-rot fungus Penicillium purpurogenum reveals a
high gene dosage for lignocellulolytic enzymes[J]. bioRxiv, 2017:
197368.
文献4在一篇鸟类的基因组文章中,由于鸟类与人类相近故选取人类的蛋白质序列(也不是所有序列而是248个高度保守的基因CEGMA
human set (CEGMA, RRID:SCR
015055)的保守序列)作为输入,使用的比对软件是genblastA,然后相似性的区域被提取出来再使用exonerate去寻找编码可能性
Korlach J, Gedman G, Kingan S B, et al. De novo PacBio
long-read and phased avian genome assemblies correct and add to
reference genes generated with intermediate and short reads[J].
GigaScience, 2017, 6(10): 1-16.
文献5选取的蛋白质数据库是 UniProt
database和几个模式的植物物种的蛋白以及EST序列来自NCBI的,蛋白序列比对使用的是exonerate and
genBlastG 来寻找spliced alignments。EST序列的比对使用的是exonerate and
BLAT
Zhang J, Chen L L, Xing F, et al. Extensive sequence
divergence between the reference genomes of two elite indica rice
varieties Zhenshan 97 and Minghui 63[J]. Proceedings of the
National Academy of Sciences, 2016, 113(35): E5163-E5171.
使用genBlastG的文章还有
Uyar B, Chu J S C, Vergara I A, et al. RNA-seq analysis of the
C. briggsae transcriptome[J]. Genome research, 2012, 22(8):
1567-1580.
#############################################
软件下载链接:http://genome.sfu.ca/genblast/download.html
我下载是v1.39版本的genBlastG
编译完成后将blast的bin程序软连接到genBlastG目录下,该程序需要依赖blast的formatdb和blastall,此外还需要一个genBlastG的alignscore.txt
脚本运行
export
GBLAST_PATH=/home/fanyucai/software/genBlast/genblast_v139//
&& cd /home/fanyucai/test/genBlast &&
/home/fanyucai/software/genBlast/genblast_v139/genblast -p
genblastg -q uniprot_sprot_fungi.fasta -t genome.fa -e 1e-10 -r 10
-g T -f F -c 0.5 -norepair -gff -o
/home/fanyucai/test/genBlast
另外可以将生成的gff文件中coding_exon,transcript关键词修改为:exon、mRNA
+++++++++++++++++++++++++++++++
为了得到较少或者更加准确的结果你可以将-r参数设置的更小,将-c参数设置的更大。
++++++++++++++++++++++++++++++
关于同源基因预测的方法最近还有一个软件GeMoMa
Keilwagen J, Wenk M, Erickson J L, et al. Using intron position
conservation for homology-based gene prediction[J]. Nucleic acids
research, 2016, 44(9): e89-e89.
这篇文章指定植物的最大外显子长度为15K动物为200K,此外这篇文章开发的GeMoMa要优于genBlastG