加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

prodigal使用教程

(2016-03-25 16:35:34)
分类: bioinf
软件介绍:
prodigal的全称是Prokaryotic Dynamic Programming Genefinding Algorithm,原核的动态编程基因查找算法,prodigal主要应用于细菌和古生菌的基因预测,不能用于真核生物,如果要对meta样品做基因预测,prodigal还专门提供了meta的版本。 除此之外,prodigal还支持在线提交序列的方式来预测基因预测。也非常的易于使用。而且相对与glimmer基因预测工具,prodigal更加好用,只需一步即可,而且,软件可以直接输出基因的核酸序列并翻译出的相应的氨基酸序列,这对很多初学者来说是非常方便的。

下载安装:
首先从prodigal网站下载安装包,无需注册直接下载即可,最新的版本为2.6.1。
上面提供了windows、mac OS和linux版本,而且有源码和编译好的可供选择,非常方便。这里面我们直接下载源码进行编译。
使用tar -zxvf 命令进行解压所,加压缩之后,进入解压缩的目录,
我们看到里面有README文件,readme文件中有软件的介绍,和一些使用的案例,还有就是如何编译,只要敲make install 就可以进行编译。
敲make install命令进行编译。编译需要等待一段时间,
prodigal没有太多的依赖关系,安装并不困难。
编译过程中有可能给出一些警告信息,这个没关系,警告信息是提示你需要注意的地方,并不是错误信息。
编译好了之后我们就会看到prodigal的可执行文件了,
直接敲prodigal命令就会弹出软件帮助信息。
使用案例:
我们看下都有哪些选项。

-a 是输出氨基酸文件
-c 不允许基因一边断开,也就是要求完整的orf,有起始和终止结构
-d 输出预测基因的序列文件
-f 选择输出文件格式,有gbk,gff,和sco格式可供选择
-g 指定密码子,原核为第11套
-i 输入文件,即需要预测的基因组序列文件
-m 屏蔽基因组中的N碱基
-o 输出文件,默认为屏幕输出
-p 选择方式,是单菌还是meta样品
-q 不输错错误信息到屏幕
-t 指定训练集
-s 输出所有潜在基因以及分值到一个文件中
下面我们拿K12基因组来做一下演示。
敲prodigal -a K12.pep -d K12.cds -f gff -g 11  -o K12.gff -p single -s K12.stat -i K12.fna
程序很快运行完,会输出四个文件,我们来看一下,.cds为我们的基因序列文件,.pep是对应的氨基酸序列文件。.gff为基因的gff文件,.list为输出所有可能结果文件,我们得到最终得到cds是根据一定的阈值对其过滤的结果。那么通过prodigal对其预测基因的工作也就完成了。
注意事项:
1、对于原核生物基因预测,我们还需要注意一个问题,就是当样品为支原体时,在密码子选择上要修改一下,因为在支原体中遗传密码中的密码子UGA能够编译成色胺酸,而不是一般的乳白色终止码。

0

阅读 收藏 喜欢 打印举报/Report
前一篇:BWA的设计思想
后一篇:fastqc使用教程
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有