【T】每日一生信--tblastn_铁汉1990

http://blog.sina.com.cn/u/1728333092

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

【T】每日一生信--tblastn

(2014-07-28 09:15:15)

标签：

tblastn

分类：注释annnoation

本博文已整理到新地址：http://qinqianshan.com/localized-blast/

我们从宏基因组中聚类出我们感兴趣的微生物物种的基因组后，想要预测其潜在的新的代谢途径的时候，一般会有两种策略：1，对该基因组进行注释，获得所有的注释结果，然后对注释结果的解读；2，通过看文献，搜集一些感兴趣的相关代谢途径的关键基因，把这些关键基因的蛋白序列给下下来，然后在你的基因组里面找看有没有相关的基因。第一种策略的注释之前的博文零星的有一些介绍，下面主要讲一下第二种策略所涉及到的一个方法----tblastn.

$ cd /sam/uncltured/contig7/c3000/syn/genome2/tblastn

$ makeblastdb -in genome2.fasta -dbtype nucl -title syn1 -parse_seqids -out syn1 -logfile syn1.log #这一步是将的基因组作为数据库

$ /sam/blast/bin/tblastn -query /sam/syn/alkylsuccinateSynthase_α-subunit_assA.fasta -db syn1 -evalue 1e-5 -num_threads 60 -outfmt 5 -out assA.xml #比对，得到的是一个xml文件

$ /sam/blast/bin/tblastn -query /sam/syn/alkylsuccinateSynthase_α-subunit_assA.fasta -db syn1 -evalue 1e-5 -num_threads 60 -outfmt 7 -out assA #比对，得到的是一个table文件

其实-outfmt 5得到的结果就是一个比较详尽的结果，-outfmt 7得到的是一个table文件。

# TBLASTN 2.2.28+

# Query: gi|299800799|gb|ADJ51097.1| alkylsuccinate synthase [Desulfoglaeba alkanexedens ALDC]

# Database: syn1

# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score

# 9 hits found

gi|299800799|gb|ADJ51097.1| 109 69.50 341 104 0 365 705 4 1026 5e-169 494

gi|299800799|gb|ADJ51097.1| 226 68.48 257 81 0 449 705 773 3 4e-118 395

gi|299800799|gb|ADJ51097.1| 226 73.17 82 22 0 290 371 1007 762 2e-32 132

gi|299800799|gb|ADJ51097.1| 839 31.61 794 504 19 77 858 13150 10850 7e-91 316

gi|299800799|gb|ADJ51097.1| 292 87.23 47 6 0 812 858 1 141 2e-20 90.1

gi|299800799|gb|ADJ51097.1| 900 87.23 47 6 0 812 858 111138 110998 2e-19 90.5

gi|299800799|gb|ADJ51097.1| 201 48.44 64 33 0 36 99 192 1 9e-13 68.9

gi|299800799|gb|ADJ51097.1| 322 46.88 64 34 0 36 99 192 1 2e-12 67.4

gi|299800799|gb|ADJ51097.1| 1072 60.00 35 14 0 824 858 7642 7746 2e-06 48.1

# BLAST processed 1 queries

#当然输入序列也可以使好多个蛋白序列合并的fasta文件，例如，我对alkylsuccinateSynthase感兴趣，我可以到ncbi中把相关的基因的蛋白序列都给下下来，放到一个文件里面。

这里面有两个问题：

1，我在下载蛋白序列的时候，发现有的序列长度为800个aa，有的仅为200个aa的parital，为什么partial也能放到数据库中呢？

2，比对的结果，如何设置阈值，判断结果中跟输入序列有很高的同源性呢？

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：【T】linux--sh初识

后一篇：【T】每日一生信--COG注释（终结版）

新浪BLOG意见反馈留言板　欢迎批评指正