转载:批量下载序列方法
(2011-12-12 11:24:54)
标签:
杂谈 |
Categorized | 生物信息学
Tags | GenBank, NCBI, 下载序列, 生物信息软件如何在NCBI批量下载GenBank序列
GenBank的序列很多,有时我们需要批量下载。这里介绍几种办法,如何从NCBI批量下载GenBank序列。有不对的地方,欢迎指正。
批量下载前须知
批量下载前,我们必须先清楚,下载大量的数据,对服务器是一种非常大的挑战。对网络也是一种大的挑战。NCBI的数据都是免费提供下载的,所以你要清楚,尽量不要使用多线程的工具下载,因为你的IP有可能给封;不要太频繁的大批量下载,中间要有间隔(即使是几秒);
1,用NCBI提供的FTP下载
NCBI的FTP地址是:ftp.ncbi.nih.gov。打开后里面有个genbank的目录,里面存放的是所有GenBank的序列和Accession的索引。对里面的格式不明白?没关系,先看看说明文档:ftp.ncbi.nih.gov/genbank/README.genbank
如果要下载现在的Blast库,打开blast目录。
如果要下载基因组序列,进入genomes目录。
全部的目录:
ncftp / > ls
1000genomes/
asn1-converters@
blast/
cgap/
cn3d/