加载中…
个人资料
bioinfomatics2medicine
bioinfomat
ics2medicine
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,697
  • 关注人气:6
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

基于taxid构建Blast database

(2016-05-25 11:40:45)
分类: 宏基因组
        有些情况下需要对于特定物种进行NCBI NR或NT数据库比对,最典型的情况就是宏基因组或宏转录组分析中,进行物种注释时,只需要对NR库中细菌序列进行注释,没必要注释全库,造成资源和时间的浪费。下面以细菌为例简单介绍按照特定分类学构建NR/NT数据库的方法。

方法一:

1. 下载pre-formatted NR数据库,两种途径:

    1)ftp下载:ftp://ftp.ncbi.nlm.nih.gov/blast/db/

    2)使用perl脚本update_blastdb.pl下载,并更新数据库

 2. 下载 taxonomy database并解压:ftp://ftp.ncbi.nih.gov/pub/taxonomy/

    1)gi_taxid_prot.dmp.gz 或 gi_taxid_nucl.dmp.gz

    2)taxdmp.tar.gz

3. names.dump(来自于taxdump.tar.gz)查看“细菌”taxid为2,提取“细菌”下所有子节点的taxids .

4. 根据上一步提取的taxid列表从gi_taxid_prot.dmp中提取出所有GIs.

5. 根据上一步得到的 GIs 列表,使用 blastdb_aliastool构建细菌NR database,如下:

    blastdb_aliastool -gilist vertebrate_gis.txt -db nr -out nr_vertebrates -title nr_vertebrates

方法二:


1. 下载pre-formatted NR数据库,同上

2. 在Entrez Protein database(http://www.ncbi.nlm.nih.gov/protein/)搜索"txid2[ORGN]"

3. 搜索结果页面点击"Send to File",并选择 "GI list"格式

4. 根据上一步得到的 GIs 列表,使用 blastdb_aliastool构建细菌NR database,如下:

blastdb_aliastool -gilist vertebrates.gi_list.txt -db nr -out nr_vertebrates -title nr_vertebrates


      这两种方法的区别在于GI list的获取,方法一中GI的获得来自于gi_taxid_prot.dmp文件,需要自己编辑脚本;方法二中GI的获得直接来自于NCBI。

方法三:


1. 下载pre-formatted NR数据库,同上

2. 在Entrez Protein database(http://www.ncbi.nlm.nih.gov/protein/)搜索"txid2[ORGN]"

3. 搜索结果页面点击"Send to File",并选择 "GI list"格式

4. 使用blastdbcmd 提取fasta sequences,如下:
    blastdbcmd -db nt -dbtype 'nucl' -entry_batch $gilist -out vertebrates.fa

5. 对获得的fasta序列文件,使用makeblastdb建库

    makeblastdb -in vertebrates.fa -dbtype 'nucl' -title vertebrates


    这种方法与第二种方法的区别是可以获得fasta序列,但需要再建库。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有