加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

在R中绘制基因组的GC含量分布曲线

(2013-05-01 20:56:30)
标签:

r语言

生物信息学

gc含量

基因组

it

分类: R语言

Biostrings库中有一些有用的东西,可以用来操作fasta和fastq文件,具体可以看他的Bioconductor主页以及帮助文档

今天拿到一个枯草芽孢杆菌(Bacillus subtilis)的基因组,用这个基因组做实验,我想看看它的GC分布是怎么样的。

library(Biostrings) #载入库

filepath<-"D:\\final_r.fa"

x<-readDNAStringSet(filepath) #读fasta文件

chrom<-x[[1]]

gc<-rowSums(letterFrequencyInSlidingView(chrom,1000,c("G","C")))/1000 #计算GC含量,用1000bp的sliding widonws

summary(gc)

           Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 

         0.2360  0.4160  0.4410  0.4384  0.4650  0.7340

plot(gc,type='l',axes=F,xlab=NA,ylab=NA,ylim=c(0.2,0.8)) #作图

axis(2,at=c(0.2,0.4,0.6,0.8),labels=c("20%","40%","60%","80%"))

axis(1,at=c(0,1000000,2000000,3000000,4081398),labels=c("Start","1 Mbps","2 Mbps","3 Mbps","End"))

很简单,结果就是这样
http://s16/mw690/572d4a6cgdba852710b9f&690


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有