加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

【T】每日一生信--tRNAscan-SE(终结版)

(2014-07-17 18:04:41)
标签:

trnascan-se

分类: 基因预测prediction
本博文已整理到新地址:http://qinqianshan.com/prediction-of-trna-trnascan-se/

1. tRNAscan-SE 简介

tRNAscan-SE 能在基因组水平上进行tRNA扫描。该软件实际上是一个perl 脚本,整合了tRNAscanEufindRNA Cove 3个独立的tRNA检测软件。tRNAscan-SE 首先调用 tRNAscanEufindRNA鉴定基因组序列中 tRNA区域,然后调用Cove进行验证。这样既保证了前者的sensitivities 又保证了后者较低的假阳性概率,同时在搜索速度上提升了很多。

有关tRNAscan-SE 的详细说明,参考其本地化软件包中的 man 文档。

tRNAscan-SE 的网页版:http://lowelab.ucsc.edu/tRNAscan-SE/。但一次最多只能进行5M bp 序列的 tRNA 预测。(我的3M的数据还弄了半天搞不定)

 

2. tRNAscan-SE 本地安装

$ wget http://lowelab.ucsc.edu/software/tRNAscan-SE.tar.gz

##你也可以从http://lowelab.ucsc.edu/tRNAscan-SE/source code点击下载

$ tar zxf tRNAscan-SE.tar.gz

$cd tRNAscan-SE-1.3.1

 

#首先修改makefile文件,修改里面的内容,你也可以手动修改,上面的命令式将$(HOME)改为/sam/tRNAscanSE

$ perl -p -i -e 's#\$\(HOME\)#/sam/tRNAscanSE#' Makefile


$ make && make install

#测试

$ make testrun

 

#修改环境变量

$ echo 'PATH=$PATH: /sam/tRNAscanSE /bin/' >> ~/.bashrc

$ echo 'PERL5LIB=$PERL5LIB: /sam/tRNAscanSE/bin/' >> ~/.bashrc

$ source ~/.bashrc

 

3. tRNAscan-SE 的使用

常用例子与主要参数:

$ tRNAscan-SE -o tRNA.out -f rRNA.ss -m tRNA.stats  genome.fasta

 

-A 适合于古细菌。该参数选择了古细菌特异性的covariance model(cm),同时稍微放宽了 EufindtRNA cutoffs

-B 适合于细菌。默认情况下,不选择,-A -B -G -O 参数,则适合于真核生物。

 tRNAscan-SE -B -o tRNA.out -f rRNA.ss -m tRNA.stats  genome.fasta

-G 适合于古细菌,细菌和真核生物的混合序列。该参数使用 general tRNA covariance model

 tRNAscan-SE -G -o tRNA.out -f rRNA.ss -m tRNA.stats  genome.fasta

-O 适合于线粒体和叶绿体。选择该参数,则仅使用 Cove 进行分析,搜索速度会很慢,同时也不能给出 pseudogenes 检测。

 

-i 使用 Infernal cm analysis only。该参数设置后,需要 cmsearch 命令,但是 tRNAscan-SE 软件包中貌似没有该程序,最终无法运行。

-C 仅使用 Cove 进行 tRNA 分析。虽然从一定程度上提高了准确性,但是会极慢,当然不建议了。

-o 将结果保存到文件。

-f tRNA 的二级结构结果保存到文件

-m 将统计结果保存到文件。

 

4. tRNAscan-SE 的结果说明

生成的有一个统计文件(包含trnascan, eufindtrna and cove). The summary data includes counts of the total number of tRNAs found, the number of tRNA pseudogenes found, number of tRNAs with introns and which anticodons were detected. Finally, the output shows the predicted secondary structure for each identified sequence.  With an additional click on the “View tRNA” button to the right of each tRNA, a two-dimensional representation of the tRNA structure can be displayed, producing the familiar tRNA clover-leaf structure.  The output also displays the overall length of the sequence, the location of the anticodon and the overall tRNAscan-SE score. tRNAscan-SE scores for known tRNA sequences for various species are included on the website to facilitate evaluation of the significance of the score.

 

tRNA.out-o参数后面生成的文件)

Sequence          tRNA         Bounds     tRNA         Anti  Intron Bounds Cove

Name                          tRNA #     Begin        End  Type Codon  Begin End  Score

--------                 ------ ----    ------ ----    -----  ----- ----    ------

 

Your-seq                      73     Ala   AGC               74.48

在真核生物中,tRNA RNA 聚合酶III 在核内转录生成 pre-tRNA, 再进行加工生成有功能的 tRNA 分子(特别是一些 tRNA 序列还含有内含子)。若 tRNA 存在内含子,则结果文件中第 7 8 列会给出内含子区间,否则其值为 0

tRNAscan-SE 的结果中, 如果 begin end 的值大,则表示 tRNA 在负义链上。有些结果中第5 列为 pseudogene 这表示其一级或二级结构比较差。最后一列是 Cove Score,该分值最低阈值为 20 。该值是一个 log ratio值。ratio 是符合 tRNAcovariance model概率与随机序列模型概率的比值。当然,最后最好是将表格格式结果转换为 GFF3 结果,以利于在基因组上的可视化

 

tRNA.stats -m参数后生成的文件)

--------

Overall scan speed: 730.0 bp/sec

tRNAs decoding Standard 20 AA:              1

Selenocysteine tRNAs (TCA):                 0

Possible suppressor tRNAs (CTA,TTA):        0

tRNAs with undetermined/unknown isotypes:   0

Predicted pseudogenes:                      0

                                            -------

Total tRNAs:                                1

tRNAs with introns:                                0

 

Isotype / Anticodon Counts:

Ala   : 1   AGC: 1       GGC:         CGC:         TGC:      

 

------------------------------------------------------------------------

 

Predicted tRNA Secondary Structures-f rRNA.ss:

Your-seq.trna1 (1-73)              Length: 73 bp

Type: Ala      Anticodon: AGC at 34-36 (34-36)  Score: 74.48

                     *                

Seq: GGGCGTGTGGCGTAGTCGGTAGCGCGCTCCCTTAGCATGGGAGAGGtCTCCGGTTCGATTCCGGACTCGTCCA

Str: >>>>>.>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<.<<<<<.

 文件中的二级结构使用大于号或小于号表示互补配对区域,使用点号表示环形域或非互补配对区域。

 

 

额外的补充

Munual.ps文件详尽的介绍了用法,但是这个文件格式为.ps,很神奇的一个格式

*.ps文件就是指这个文件已经用PostScript语言处理过了,可以直接在PostScript打印机上输出(相当于文本文件加上HTML标记后就成了HTML文件一样)。例如我们只需用下面命令:copy/b name.ps prn即可把一个*.psPostScript打印机上打印出来。PostScript是一种页面描述语言,由Adobe公司于1985年开发成功(Adobe正是靠PostScript起家的)PostScript最重要的用途是以设备无关方式描述图形,这样,同一个描述可以不加修改地在任一台PostScript打印机上输出。另外,用PostScript还可以在计算机屏幕及其它绘图设备上绘图,可以在屏幕上显示相应的PostScript文件。PostScript由于可以满足上述条件,所以在网上广为流行。*.ps是网上广为流传的文件格式,如何使用这种文件格式呢?下面介绍一个最著 ostScript实用工具Ghostscript

http://www.yesky.com/37/23037.shtml

 


参考资料:

http://www.chenlianfu.com/?p=2177(超赞)

http://lowelab.ucsc.edu/tRNAscan-SE/trnascanseReadme.html

下载的软件中有一个Munual.ps

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有