关于蛋白质序列直系同源COG的注释

分类: 生物信息学 |
COG:数据库下载链接:http://www.ncbi.nlm.nih.gov/COG/
注意这个数据库还包含个KOG那指的是真核生物的,目前用的蛋白质直系同源注释还有一个eggNOG数据库,这个比较全面,包含的比较多,但是到最后还是要分到COG.
在以上的网址需要下载的文件有:
whog
myva
fun.txt
===========================
此外需要下载perl程序:
cog_db_clean.pl
cog_db_clean.pl -myva myva whog >cog_clean.fa
formatdb -p T -o T -i cog_clean.fa;
blast_parser.pl
blastall -p blastp -b 500 -v 500 -F F -d cog_clean.fa -e 1e-4 -i yourdata.fa -o blast.out;
blast_parser.pl -tophit 1 -topmatch 1 blast.out >blast.best;
这个时候你就可以编写perl与R程序输出类似下面的结果:
后一篇:关于甲基化数据分析