使用GenBlastA与genBlastG来预测基因_fanyucai

http://blog.sina.com.cn/u/2214034580

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

使用GenBlastA与genBlastG来预测基因

(2018-01-10 15:55:04)

分类：生物信息学

1:关于基因预测重要的一环是提供近源物种的蛋白质序列，然后将蛋白质序列比对到基因组序列上寻找可能能到编码位置。

2:一般的方法是首先是使用blast将蛋白质序列比对到基因上，然后找到相关的位置，提取这些位置，然后再使用genewise，但是这一过程似乎写代码比较麻烦

3:在网上查询了一些文献似乎GenBlastA与genBlastG这两个软件可以做这件事情

4:对于蛋白质序列来源我查阅了以下文献，希望对你做基因预测有帮助：

文献1测序的是蝴蝶，收集的蛋白质序列是UniRef90数据库中所有来自昆虫的蛋白，使用的软件是genblastG

Cong Q, Shen J, Borek D, et al. Complete genomes of Hairstreak butterflies, their speciation, and nucleo-mitochondrial incongruence[J]. Scientific reports, 2016, 6.

文献2蛋白质数据来源于UniProt database，contig长度小于500bp并不用于基因预测，在比对结果中相似性小于90%，比对alignment coverage<0.5的都被排除在外。使用的软件genBlastG

http://onlinelibrary.wiley.com/doi/10.1111/tpj.12254/full

文献3蛋白质序列数据除了来源于UniProt所有真菌还包含了先前使用Augustus以及GeneMark-ES预测的结果，比对使用blastp,分析使用的是GenBlastG，阈值选取的是1e-10,这个结果再作为genewise的输入，在genewise比对分析中覆盖度至少要达到80%

Eyzaguirre J, Mardones W, Di Genova A, et al. The genome sequence of the soft-rot fungus Penicillium purpurogenum reveals a high gene dosage for lignocellulolytic enzymes[J]. bioRxiv, 2017: 197368.

文献4在一篇鸟类的基因组文章中，由于鸟类与人类相近故选取人类的蛋白质序列(也不是所有序列而是248个高度保守的基因CEGMA human set (CEGMA, RRID:SCR 015055)的保守序列)作为输入，使用的比对软件是genblastA，然后相似性的区域被提取出来再使用exonerate去寻找编码可能性

Korlach J, Gedman G, Kingan S B, et al. De novo PacBio long-read and phased avian genome assemblies correct and add to reference genes generated with intermediate and short reads[J]. GigaScience, 2017, 6(10): 1-16.

文献5选取的蛋白质数据库是 UniProt database和几个模式的植物物种的蛋白以及EST序列来自NCBI的，蛋白序列比对使用的是exonerate and genBlastG 来寻找spliced alignments。EST序列的比对使用的是exonerate and BLAT

Zhang J, Chen L L, Xing F, et al. Extensive sequence divergence between the reference genomes of two elite indica rice varieties Zhenshan 97 and Minghui 63[J]. Proceedings of the National Academy of Sciences, 2016, 113(35): E5163-E5171.

使用genBlastG的文章还有

Uyar B, Chu J S C, Vergara I A, et al. RNA-seq analysis of the C. briggsae transcriptome[J]. Genome research, 2012, 22(8): 1567-1580.

#############################################

软件下载链接：http://genome.sfu.ca/genblast/download.html

我下载是v1.39版本的genBlastG

编译完成后将blast的bin程序软连接到genBlastG目录下，该程序需要依赖blast的formatdb和blastall,此外还需要一个genBlastG的alignscore.txt

脚本运行

export GBLAST_PATH=/home/fanyucai/software/genBlast/genblast_v139// && cd /home/fanyucai/test/genBlast && /home/fanyucai/software/genBlast/genblast_v139/genblast -p genblastg -q uniprot_sprot_fungi.fasta -t genome.fa -e 1e-10 -r 10 -g T -f F -c 0.5 -norepair -gff -o /home/fanyucai/test/genBlast

另外可以将生成的gff文件中coding_exon，transcript关键词修改为：exon、mRNA

+++++++++++++++++++++++++++++++

为了得到较少或者更加准确的结果你可以将-r参数设置的更小，将-c参数设置的更大。

++++++++++++++++++++++++++++++

关于同源基因预测的方法最近还有一个软件GeMoMa

Keilwagen J, Wenk M, Erickson J L, et al. Using intron position conservation for homology-based gene prediction[J]. Nucleic acids research, 2016, 44(9): e89-e89.

这篇文章指定植物的最大外显子长度为15K动物为200K，此外这篇文章开发的GeMoMa要优于genBlastG

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：使用PASA来进行比对拼接---结合EVM助力基因预测

后一篇：按照物种拆分UniProt蛋白质数据

新浪BLOG意见反馈留言板　欢迎批评指正