使用GeneMark_ES预测基因

分类: 生物信息学 |
1:软件链接:http://exon.gatech.edu/GeneMark/
2:学会使用GeneMark_ES预测还是蛮重要的,主要是该方法操作比较简单依靠自己的训练集合,不需要寻找近源物种,可以与其它基因预测软件合并使用,整合的软件主要是使用EVM。此外该软件在预测真菌基因的时候,还有专门的参数命令。个人感觉可以弥补一些分析软件上的不足。
3:以真菌为例子:
perl
/home/fanyucai/software/GeneMark-ES/gm_et_linux_64/gmes_petap/gmes_petap.pl
--ES --max_intron 3000 --min_gene_prediction 120
--fungus --sequence jelly.out.fasta.pilon.fasta
输出的文件格式为gtf,为了方便EVM的整合,可以使用gtf2gff3.pl(谷歌搜索即可得到该脚本以及配置文件),可以转化为gff3文件
4:本身GeneMark可以自我训练,不过在做基因预测的时候这里还是建议将PASA的输出结果作为训练集。
https://raw.githubusercontent.com/irusri/Extract-intron-from-gff3/master/scripts/extract_intron_gff3_from_gff3.py
GeneMark在运行的时候需要加载很多perl库
export
PERL5LIB=/home/fanyucai/software/perl/perl-v5.24.1/lib/:$PERL5LIB
perl gmes_petap.pl --ET intron.gff3 --sequence
jelly.out.fasta.pilon.fasta.masked --cores 30
perl gtf2gff3.pl --cfg gtf2gff3.cfg genemark.gtf
> genemark.gff3
gtf2gff3.pl 脚本下载路径:
http://search.cpan.org/dist/GBrowse/bin/gtf2gff3.pl
从普通的gff中添加内含子路径: