加载中…
个人资料
fanyucai
fanyucai
  • 博客等级:
  • 博客积分:0
  • 博客访问:12,689
  • 关注人气:378
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

关于蛋白质序列直系同源COG的注释

(2014-07-19 16:56:35)
分类: 生物信息学

COG:数据库下载链接:http://www.ncbi.nlm.nih.gov/COG/

 

注意这个数据库还包含个KOG那指的是真核生物的,目前用的蛋白质直系同源注释还有一个eggNOG数据库,这个比较全面,包含的比较多,但是到最后还是要分到COG.

 

在以上的网址需要下载的文件有:

 

whog    关于COG序列中的相关注释情况

myva     COG数据库所包含的所有fasta格式的序列

fun.txt   大概COG可以按照功能分为25个大类,每一类可以用一个字母表示

===========================

此外需要下载perl程序:

cog_db_clean.pl  并不是所有的COG序列都包含所有的功能注释,所以你需要运行命令,挑选出在COG数据库中有注释的那些序列,脚本下载链接:https://gist.github.com/Buttonwood/96f9a9ef8159ca111a69

cog_db_clean.pl  -myva myva whog >cog_clean.fa
formatdb -p T -o T -i cog_clean.fa;

blast_parser.pl  解析blast输出结果,下载链接:https://github.com/JinfengChen/Scripts/tree/master/bin

blastall -p blastp -b 500 -v 500 -F F -d cog_clean.fa -e 1e-4 -i yourdata.fa -o blast.out;
blast_parser.pl -tophit 1 -topmatch 1 blast.out >blast.best;

这个时候你就可以编写perl与R程序输出类似下面的结果:

关于蛋白质序列直系同源COG的注释


如果想要进一步分析的代码可以在我博客下面留下你的联系方式。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有