加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【T】每日一生信--tblastn

(2014-07-28 09:15:15)
标签:

tblastn

分类: 注释annnoation
本博文已整理到新地址:http://qinqianshan.com/localized-blast/

我们从宏基因组中聚类出我们感兴趣的微生物物种的基因组后,想要预测其潜在的新的代谢途径的时候,一般会有两种策略:1,对该基因组进行注释,获得所有的注释结果,然后对注释结果的解读;2,通过看文献,搜集一些感兴趣的相关代谢途径的关键基因,把这些关键基因的蛋白序列给下下来,然后在你的基因组里面找看有没有相关的基因。第一种策略的注释之前的博文零星的有一些介绍,下面主要讲一下第二种策略所涉及到的一个方法----tblastn.

$ cd /sam/uncltured/contig7/c3000/syn/genome2/tblastn

$ makeblastdb -in genome2.fasta -dbtype nucl -title syn1 -parse_seqids -out syn1 -logfile syn1.log   #这一步是将的基因组作为数据库

$ /sam/blast/bin/tblastn -query /sam/syn/alkylsuccinateSynthase_α-subunit_assA.fasta -db syn1 -evalue 1e-5 -num_threads 60  -outfmt 5 -out assA.xml  #比对,得到的是一个xml文件

$ /sam/blast/bin/tblastn -query /sam/syn/alkylsuccinateSynthase_α-subunit_assA.fasta -db syn1 -evalue 1e-5 -num_threads 60  -outfmt 7 -out assA  #比对,得到的是一个table文件

其实-outfmt 5得到的结果就是一个比较详尽的结果,-outfmt 7得到的是一个table文件。

 

# TBLASTN 2.2.28+

# Query: gi|299800799|gb|ADJ51097.1| alkylsuccinate synthase [Desulfoglaeba alkanexedens ALDC]

# Database: syn1

# Fields: query id, subject id, % identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score

# 9 hits found

gi|299800799|gb|ADJ51097.1|    109   69.50          341   104        365   705        1026 5e-169       494

gi|299800799|gb|ADJ51097.1|    226   68.48          257   81          449   705   773        4e-118       395

gi|299800799|gb|ADJ51097.1|    226   73.17          82     22          290   371   1007 762   2e-32         132

gi|299800799|gb|ADJ51097.1|    839   31.61          794   504   19     77     858   13150         10850         7e-91         316

gi|299800799|gb|ADJ51097.1|    292   87.23          47               812   858        141   2e-20       90.1

gi|299800799|gb|ADJ51097.1|    900   87.23          47               812   858   111138       110998       2e-19        90.5

gi|299800799|gb|ADJ51097.1|    201   48.44          64     33          36     99     192        9e-13        68.9

gi|299800799|gb|ADJ51097.1|    322   46.88          64     34          36     99     192        2e-12        67.4

gi|299800799|gb|ADJ51097.1|    1072 60.00          35     14          824   858   7642 7746 2e-06        48.1

# BLAST processed 1 queries

 

#当然输入序列也可以使好多个蛋白序列合并的fasta文件,例如,我对alkylsuccinateSynthase感兴趣,我可以到ncbi中把相关的基因的蛋白序列都给下下来,放到一个文件里面。

 

这里面有两个问题:

1,我在下载蛋白序列的时候,发现有的序列长度为800aa,有的仅为200aaparital,为什么partial也能放到数据库中呢?

    2,比对的结果,如何设置阈值,判断结果中跟输入序列有很高的同源性呢?

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有