加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Bioconductor相关R语言学习例4-1(脚本plus解释)

(2014-06-25 23:05:50)
分类: 生物信息
Bioconductor相关R语言学习例4-1
在该例中,主要学习dna序列转换的几个命令。进行DNA转RNA(转录),RNA转DNA(逆转录),互补,反向,反向互补,翻译等基本操作。


> source("http://www.bioconductor.org/biocLite.R")   #下载biocLite安装脚本
Bioconductor version 2.14 (BiocInstaller 1.14.2), ?biocLite for help
> biocLite("Biostrings")                             #安装bioconductor中的Biostrings软件包
BioC_mirror: http://bioconductor.org
Using Bioconductor version 2.14 (BiocInstaller 1.14.2), R version
  3.1.0.
Installing package(s) 'Biostrings'
试开URL’http://bioconductor.org/packages/2.14/bioc/bin/windows/contrib/3.1/Biostrings_2.32.0.zip'
Content type 'application/zip' length 4750742 bytes (4.5 Mb)
打开了URL
downloaded 4.5 Mb

package ‘Biostrings’ successfully unpacked and MD5 sums checked

The downloaded binary packages are in
        C:\Users\baoli\AppData\Local\Temp\Rtmpmi5g8N\downloaded_packages
Old packages: 'BBmisc'
Update all/some/none? [a/s/n]: n
> biocLite("BSgenome.Hsapiens.UCSC.hg19")            #安装bioconductor中的人类基因组序列数据包(版本号H19)
BioC_mirror: http://bioconductor.org
Using Bioconductor version 2.14 (BiocInstaller 1.14.2), R version
  3.1.0.
Installing package(s) 'BSgenome.Hsapiens.UCSC.hg19'

  有二进制版本(将被安装),但源代码版本是后来的:
                            binary   source
BSgenome.Hsapiens.UCSC.hg19 1.3.99 1.3.1000

试开URL’http://bioconductor.org/packages/2.14/data/annotation/bin/windows/contrib/3.1/BSgenome.Hsapiens.UCSC.hg19_1.3.99.zip'
Content type 'application/zip' length 958836732 bytes (914.4 Mb)
打开了URL
downloaded 914.4 Mb


The downloaded binary packages are in
        C:\Users\baoli\AppData\Local\Temp\Rtmpmi5g8N\downloaded_packages
Old packages: 'BBmisc'
Update all/some/none? [a/s/n]: n
> biocLite(hgu133a2probe)
错误于match(x, table, nomatch = 0L) : 找不到对象'hgu133a2probe'
> biocLite("hgu133a2probe")                          #安装bioconductor中的人类基因组表达谱芯片HG-U133A的探针数据包
BioC_mirror: http://bioconductor.org
Using Bioconductor version 2.14 (BiocInstaller 1.14.2), R version
  3.1.0.
Installing package(s) 'hgu133a2probe'
试开URL’http://bioconductor.org/packages/2.14/data/annotation/bin/windows/contrib/3.1/hgu133a2probe_2.14.0.zip'
Content type 'application/zip' length 2691361 bytes (2.6 Mb)
打开了URL
downloaded 2.6 Mb


The downloaded binary packages are in
        C:\Users\baoli\AppData\Local\Temp\Rtmpmi5g8N\downloaded_packages
Old packages: 'BBmisc'
Update all/some/none? [a/s/n]: n
> dna<-DNAString("TCTCCCAACCCTTGTACCAGT")
错误: 没有"DNAString"这个函数
> dna <- DNAString("TCTCCCAACCTTGTACCAGT")
错误: 没有"DNAString"这个函数
> library(Biostrings)                             #加载bioconductor中的Biostrings包
载入需要的程辑包:BiocGenerics
载入需要的程辑包:parallel

载入程辑包:‘BiocGenerics’

下列对象被屏蔽了from ‘package:parallel’:

    clusterApply, clusterApplyLB, clusterCall, clusterEvalQ,
    clusterExport, clusterMap, parApply, parCapply, parLapply,
    parLapplyLB, parRapply, parSapply, parSapplyLB

下列对象被屏蔽了from ‘package:stats’:

    xtabs

下列对象被屏蔽了from ‘package:base’:

    anyDuplicated, append, as.data.frame, as.vector, cbind,
    colnames, do.call, duplicated, eval, evalq, Filter, Find, get,
    intersect, is.unsorted, lapply, Map, mapply, match, mget, order,
    paste, pmax, pmax.int, pmin, pmin.int, Position, rank, rbind,
    Reduce, rep.int, rownames, sapply, setdiff, sort, table, tapply,
    union, unique, unlist

载入需要的程辑包:IRanges
载入需要的程辑包:XVector
> library(BSgenome.Hsapiens.UCSC.hg19)          #加载人类基因组序列数据包
载入需要的程辑包:BSgenome
载入需要的程辑包:GenomicRanges
载入需要的程辑包:GenomeInfoDb
> library(hgu133a2probe)                        #加载HG-U133A的探针数据包  注意以上这些数据包都是bioconductor
载入需要的程辑包:AnnotationDbi
载入需要的程辑包:Biobase
Welcome to Bioconductor

    Vignettes contain introductory material; view with
    'browseVignettes()'. To cite Bioconductor, see
    'citation("Biobase")', and for packages 'citation("pkgname")'.


载入程辑包:‘AnnotationDbi’

下列对象被屏蔽了from ‘package:BSgenome’:

    species

> dna<-DNAString("TCTCCCAACCCTTGTACCAGT")      #建立一个"DNAString"类型的变量dna,其序列是"TCTCCCAACCCTTGTACCAGT"
> dna                                          #显示变量dna的内容
  21-letter "DNAString" instance
seq: TCTCCCAACCCTTGTACCAGT
> Biostrings::dna2rna(dna)                     #将变量dna由DNAString类型转变为RNAStirng类型并直接查看内容
  21-letter "RNAString" instance
seq: UCUCCCAACCCUUGUACCAGU                     #T变成U
警告信息:
  dna2rna() is deprecated. Please use RNAString() instead. #dna2rna已经被废弃,请使用RNAString()函数
> RNAString(dna)                               #结果与dna2ran一样
  21-letter "RNAString" instance
seq: UCUCCCAACCCUUGUACCAGU      

> rna<-transcribe(dna)                        #将变量dna中的DNA序列转录,产生一个"RNAString"类型的新对象rna
警告信息:
  transcribe() is deprecated. Please use 'RNAString(complement(x))' instead
  (which is how 'transcribe(x)' is implemented).   #transcribe()已经被废弃,请使用RNAString(complement(x))函数


> rna                                         #显示变量rna的内容
  21-letter "RNAString" instance
seq: AGAGGGUUGGGAACAUGGUCA                    #这里可以看出transcribe后实际上是互补序列的rna形式,同时注意该结果没有遵守5`到3`的方向
> rna2dna(rna)                                #将变量rna由RNAString类型转变为DNAStirng类型并直接查看内容
  21-letter "DNAString" instance
seq: AGAGGGTTGGGAACATGGTCA
警告信息:
  rna2dna() is deprecated. Please use DNAString() instead. 
> cD<-cDNA(rna)                               #将变量rna逆转录,得到DNAString类型新对象cD
警告信息:
  cDNA() is deprecated. Please use 'DNAString(complement(x))' instead
  (which is how 'cDNA(x)' is implemented). 
> cD                                          #显示变量cD的内容
  21-letter "DNAString" instance
seq: TCTCCCAACCCTTGTACCAGT

> codons(rna)                                #查看rna的三联密码子,只有一种读码框
  Views on a 21-letter RNAString subject
subject: AGAGGGUUGGGAACAUGGUCA
views:
    start end width
[1]     1   3     3 [AGA]
[2]     4   6     3 [GGG]
[3]     7   9     3 [UUG]
[4]    10  12     3 [GGA]
[5]    13  15     3 [ACA]
[6]    16  18     3 [UGG]
[7]    19  21     3 [UCA]

> codons(dna)                               #查看dna的三联密码子,只有一种读码框
  Views on a 21-letter DNAString subject
subject: TCTCCCAACCCTTGTACCAGT
views:
    start end width
[1]     1   3     3 [TCT]
[2]     4   6     3 [CCC]
[3]     7   9     3 [AAC]
[4]    10  12     3 [CCT]
[5]    13  15     3 [TGT]
[6]    16  18     3 [ACC]
[7]    19  21     3 [AGT]
> codons(cD)                               #查看cD的三联密码子,只有一种读码框
  Views on a 21-letter DNAString subject
subject: TCTCCCAACCCTTGTACCAGT
views:
    start end width
[1]     1   3     3 [TCT]
[2]     4   6     3 [CCC]
[3]     7   9     3 [AAC]
[4]    10  12     3 [CCT]
[5]    13  15     3 [TGT]
[6]    16  18     3 [ACC]
[7]    19  21     3 [AGT]
> AA<-translate(rna)                        #翻译rna(只有一种读码框),并把翻译结果(AAString类型)存在变量AA中
> AA
  7-letter "AAString" instance              #显示变量AA的内容
seq: RGLGTWS
> complement(dna)                           #互补的DNA序列
  21-letter "DNAString" instance
seq: AGAGGGTTGGGAACATGGTCA
> comdna<-complement(dna)                   #将互补DNA序列保存在comdna变量中
> comdna
  21-letter "DNAString" instance
seq: AGAGGGTTGGGAACATGGTCA
> reverseComplement(dna)                   #反向互补序列
  21-letter "DNAString" instance
seq: ACTGGTACAAGGGTTGGGAGA
> revdna<-reverseComplement(dna)
> revdna
  21-letter "DNAString" instance
seq: ACTGGTACAAGGGTTGGGAGA
> reverse(dna)                             #反向序列
  21-letter "DNAString" instance
seq: TGACCATGTTCCCAACCCTCTr

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有