【T】每日一生信--tblastn
(2014-07-28 09:15:15)
标签:
tblastn |
分类: 注释annnoation |
我们从宏基因组中聚类出我们感兴趣的微生物物种的基因组后,想要预测其潜在的新的代谢途径的时候,一般会有两种策略:1,对该基因组进行注释,获得所有的注释结果,然后对注释结果的解读;2,通过看文献,搜集一些感兴趣的相关代谢途径的关键基因,把这些关键基因的蛋白序列给下下来,然后在你的基因组里面找看有没有相关的基因。第一种策略的注释之前的博文零星的有一些介绍,下面主要讲一下第二种策略所涉及到的一个方法----tblastn.
$ cd /sam/uncltured/contig7/c3000/syn/genome2/tblastn
$
makeblastdb -in genome2.fasta -dbtype nucl -title syn1
-parse_seqids -out syn1 -logfile
syn1.log
$
/sam/blast/bin/tblastn -query
/sam/syn/alkylsuccinateSynthase_α-subunit_assA.fasta -db syn1
-evalue 1e-5 -num_threads 60
$
/sam/blast/bin/tblastn -query /sam/syn/alkylsuccinateSynthase_α-subunit_assA.fasta -db
syn1 -evalue 1e-5 -num_threads 60
其实-outfmt 5得到的结果就是一个比较详尽的结果,-outfmt 7得到的是一个table文件。
# TBLASTN 2.2.28+
# Query: gi|299800799|gb|ADJ51097.1| alkylsuccinate synthase [Desulfoglaeba alkanexedens ALDC]
# Database: syn1
# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
# 9 hits found
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
gi|299800799|gb|ADJ51097.1|
# BLAST processed 1 queries
#当然输入序列也可以使好多个蛋白序列合并的fasta文件,例如,我对alkylsuccinateSynthase感兴趣,我可以到ncbi中把相关的基因的蛋白序列都给下下来,放到一个文件里面。
这里面有两个问题:
1,我在下载蛋白序列的时候,发现有的序列长度为800个aa,有的仅为200个aa的parital,为什么partial也能放到数据库中呢?