关于蛋白质序列直系同源COG的注释_fanyucai

http://blog.sina.com.cn/u/2214034580

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

关于蛋白质序列直系同源COG的注释

(2014-07-19 16:56:35)

分类：生物信息学

COG:数据库下载链接：http://www.ncbi.nlm.nih.gov/COG/

注意这个数据库还包含个KOG那指的是真核生物的，目前用的蛋白质直系同源注释还有一个eggNOG数据库，这个比较全面，包含的比较多，但是到最后还是要分到COG.

在以上的网址需要下载的文件有：

whog 关于COG序列中的相关注释情况

myva COG数据库所包含的所有fasta格式的序列

fun.txt 大概COG可以按照功能分为25个大类，每一类可以用一个字母表示

===========================

此外需要下载perl程序：

cog_db_clean.pl 并不是所有的COG序列都包含所有的功能注释，所以你需要运行命令，挑选出在COG数据库中有注释的那些序列，脚本下载链接：https://gist.github.com/Buttonwood/96f9a9ef8159ca111a69

cog_db_clean.pl  -myva myva whog >cog_clean.fa
formatdb -p T -o T -i cog_clean.fa;

blast_parser.pl 解析blast输出结果,下载链接：https://github.com/JinfengChen/Scripts/tree/master/bin

blastall -p blastp -b 500 -v 500 -F F -d cog_clean.fa -e 1e-4 -i yourdata.fa -o blast.out;
blast_parser.pl -tophit 1 -topmatch 1 blast.out >blast.best;

这个时候你就可以编写perl与R程序输出类似下面的结果：

如果想要进一步分析的代码可以在我博客下面留下你的联系方式。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：新的人类肠道微生物非冗余基因数据库

后一篇：关于甲基化数据分析

新浪BLOG意见反馈留言板　欢迎批评指正