在R中绘制基因组的GC含量分布曲线

标签:
r语言生物信息学gc含量基因组it |
分类: R语言 |
Biostrings库中有一些有用的东西,可以用来操作fasta和fastq文件,具体可以看他的Bioconductor主页以及帮助文档。
今天拿到一个枯草芽孢杆菌(Bacillus subtilis)的基因组,用这个基因组做实验,我想看看它的GC分布是怎么样的。
library(Biostrings) #载入库
filepath<-"D:\\final_r.fa"
x<-readDNAStringSet(filepath) #读fasta文件
chrom<-x[[1]]
gc<-rowSums(letterFrequencyInSlidingView(chrom,1000,c("G","C")))/1000 #计算GC含量,用1000bp的sliding widonws
summary(gc)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2360 0.4160 0.4410 0.4384 0.4650 0.7340
plot(gc,type='l',axes=F,xlab=NA,ylab=NA,ylim=c(0.2,0.8)) #作图
axis(2,at=c(0.2,0.4,0.6,0.8),labels=c("20%","40%","60%","80%"))
axis(1,at=c(0,1000000,2000000,3000000,4081398),labels=c("Start","1 Mbps","2 Mbps","3 Mbps","End"))
很简单,结果就是这样
http://s16/mw690/572d4a6cgdba852710b9f&690
前一篇:改变GCC的编译版本
后一篇:在R中绘制平滑的曲线