加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

使用GenBlastA与genBlastG来预测基因

(2018-01-10 15:55:04)
分类: 生物信息学
1:关于基因预测重要的一环是提供近源物种的蛋白质序列,然后将蛋白质序列比对到基因组序列上寻找可能能到编码位置。

2:一般的方法是首先是使用blast将蛋白质序列比对到基因上,然后找到相关的位置,提取这些位置,然后再使用genewise,但是这一过程似乎写代码比较麻烦

3:在网上查询了一些文献似乎GenBlastA与genBlastG这两个软件可以做这件事情

4:对于蛋白质序列来源我查阅了以下文献,希望对你做基因预测有帮助:
文献1测序的是蝴蝶,收集的蛋白质序列是UniRef90数据库中所有来自昆虫的蛋白,使用的软件是genblastG
Cong Q, Shen J, Borek D, et al. Complete genomes of Hairstreak butterflies, their speciation, and nucleo-mitochondrial incongruence[J]. Scientific reports, 2016, 6.

文献2蛋白质数据来源于UniProt database,contig长度小于500bp并不用于基因预测,在比对结果中相似性小于90%,比对alignment coverage<0.5的都被排除在外。 使用的软件genBlastG 
http://onlinelibrary.wiley.com/doi/10.1111/tpj.12254/full

文献3蛋白质序列数据除了来源于UniProt所有真菌还包含了先前使用Augustus以及GeneMark-ES预测的结果,比对使用blastp,分析使用的是GenBlastG,阈值选取的是1e-10,这个结果再作为genewise的输入,在genewise比对分析中覆盖度至少要达到80%
Eyzaguirre J, Mardones W, Di Genova A, et al. The genome sequence of the soft-rot fungus Penicillium purpurogenum reveals a high gene dosage for lignocellulolytic enzymes[J]. bioRxiv, 2017: 197368.

文献4在一篇鸟类的基因组文章中,由于鸟类与人类相近故选取人类的蛋白质序列(也不是所有序列而是248个高度保守的基因CEGMA human set (CEGMA, RRID:SCR 015055)的保守序列)作为输入,使用的比对软件是genblastA,然后相似性的区域被提取出来再使用exonerate去寻找编码可能性
Korlach J, Gedman G, Kingan S B, et al. De novo PacBio long-read and phased avian genome assemblies correct and add to reference genes generated with intermediate and short reads[J]. GigaScience, 2017, 6(10): 1-16.

文献5选取的蛋白质数据库是 UniProt database和几个模式的植物物种的蛋白以及EST序列来自NCBI的,蛋白序列比对使用的是exonerate and genBlastG 来寻找spliced alignments。EST序列的比对使用的是exonerate and BLAT 
Zhang J, Chen L L, Xing F, et al. Extensive sequence divergence between the reference genomes of two elite indica rice varieties Zhenshan 97 and Minghui 63[J]. Proceedings of the National Academy of Sciences, 2016, 113(35): E5163-E5171.

使用genBlastG的文章还有
Uyar B, Chu J S C, Vergara I A, et al. RNA-seq analysis of the C. briggsae transcriptome[J]. Genome research, 2012, 22(8): 1567-1580.
#############################################
软件下载链接:http://genome.sfu.ca/genblast/download.html

我下载是v1.39版本的genBlastG 

编译完成后将blast的bin程序软连接到genBlastG目录下,该程序需要依赖blast的formatdb和blastall,此外还需要一个genBlastG的alignscore.txt

脚本运行
export GBLAST_PATH=/home/fanyucai/software/genBlast/genblast_v139// && cd /home/fanyucai/test/genBlast && /home/fanyucai/software/genBlast/genblast_v139/genblast -p genblastg -q uniprot_sprot_fungi.fasta -t genome.fa -e 1e-10 -r 10 -g T -f F -c 0.5 -norepair -gff -o /home/fanyucai/test/genBlast

另外可以将生成的gff文件中coding_exon,transcript关键词修改为:exon、mRNA
+++++++++++++++++++++++++++++++
为了得到较少或者更加准确的结果你可以将-r参数设置的更小,将-c参数设置的更大。
++++++++++++++++++++++++++++++

关于同源基因预测的方法最近还有一个软件GeMoMa
Keilwagen J, Wenk M, Erickson J L, et al. Using intron position conservation for homology-based gene prediction[J]. Nucleic acids research, 2016, 44(9): e89-e89.
这篇文章指定植物的最大外显子长度为15K动物为200K,此外这篇文章开发的GeMoMa要优于genBlastG


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有