加载中…
个人资料
fanyucai
fanyucai
  • 博客等级:
  • 博客积分:0
  • 博客访问:486,498
  • 关注人气:372
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

关于转录组比对STAR软件使用

(2015-02-02 18:33:31)
分类: 生物信息学


1:软件参考文献:2012-STAR: ultrafast universal RNA-seq aligner


2:是因为有了tophat才暗淡了这个比对软件,但是后来者居上。个人觉得 STAR比对软件要好于tophat,而且后者的分析结果兼容前者。这个可是ENCODE计划御用的。好处不多说,看一下具体用法。


3:STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index);二是:序列比对


4:关于第一步genomeGenerate运行一次就可以了:


STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles /home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa --sjdbGTFfile /home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf --sjdbOverhang 89



—runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键

—runThreadN: 运行的线程数

—genomeDir: 这个参数很重要,是存放你声称index文件路径,需要你事先建立一个有可读写权限的文件夹

—genomeFastaFiles 基因组fasta格式文件

—sjdbGTFfile GTF注释文件

—sjdbOverhang 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值


5:运行比对

STAR不但可以进行比对,还可以输出可变剪切,转录本融合,以及控制输出格式为SAM或者BAM,并对输出的BAM可进行选择性排序输出。最主要在比对的过程中还提供了ENCODE的比对参数。

STAR --runThreadN 20 --readFilesIn /home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq /home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq --quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate --outFileNamePrefix /home/fanyc/RNA-seq/STAR/23 --outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax 0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20


上面结合了ENCODE的参数,同时又加上了比对输出为BAM格式,并对BAM格式进行排序。另外输出可变剪切,以及转录本融合的结果。


—readFilesIn 输出的原始测序数据


--outSAMtype BAM SortedByCoordinate 输出格式为BAM并排序


--chimSegmentMin 20 输出融合转录本,20代表比对的最短的碱基数目


--outFileNamePrefix  输出文件的前缀

--quantMode TranscriptomeSAM  转录本定量


6:生成的文件:

Chimeric.out.junction  融合转录本

Aligned.sortedByCoord.out.bam  比对输出

Aligned.toTranscriptome.out.bam 转录本比对输出

SJ.out.tab 可变剪切结果输出


注:对于以上结果的解读可参考STAR的说明文档。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有