Bioconductor相关R语言学习例4-1（脚本plus解释）_青山屋主

http://blog.sina.com.cn/u/1971308317

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Bioconductor相关R语言学习例4-1（脚本plus解释）

(2014-06-25 23:05:50)

分类：生物信息

Bioconductor相关R语言学习例4-1

在该例中，主要学习dna序列转换的几个命令。进行DNA转RNA(转录)，RNA转DNA（逆转录），互补，反向，反向互补，翻译等基本操作。

> source("http://www.bioconductor.org/biocLite.R") #下载biocLite安装脚本

Bioconductor version 2.14 (BiocInstaller 1.14.2), ?biocLite for help

> biocLite("Biostrings") #安装bioconductor中的Biostrings软件包

BioC_mirror: http://bioconductor.org

Using Bioconductor version 2.14 (BiocInstaller 1.14.2), R version

3.1.0.

Installing package(s) 'Biostrings'

试开URL’http://bioconductor.org/packages/2.14/bioc/bin/windows/contrib/3.1/Biostrings_2.32.0.zip'

Content type 'application/zip' length 4750742 bytes (4.5 Mb)

打开了URL

downloaded 4.5 Mb

package ‘Biostrings’ successfully unpacked and MD5 sums checked

The downloaded binary packages are in

C:\Users\baoli\AppData\Local\Temp\Rtmpmi5g8N\downloaded_packages

Old packages: 'BBmisc'

Update all/some/none? [a/s/n]: n

> biocLite("BSgenome.Hsapiens.UCSC.hg19") #安装bioconductor中的人类基因组序列数据包（版本号H19）

BioC_mirror: http://bioconductor.org

Using Bioconductor version 2.14 (BiocInstaller 1.14.2), R version

3.1.0.

Installing package(s) 'BSgenome.Hsapiens.UCSC.hg19'

有二进制版本（将被安装），但源代码版本是后来的:

binary source

BSgenome.Hsapiens.UCSC.hg19 1.3.99 1.3.1000

试开URL’http://bioconductor.org/packages/2.14/data/annotation/bin/windows/contrib/3.1/BSgenome.Hsapiens.UCSC.hg19_1.3.99.zip'

Content type 'application/zip' length 958836732 bytes (914.4 Mb)

打开了URL

downloaded 914.4 Mb

The downloaded binary packages are in

C:\Users\baoli\AppData\Local\Temp\Rtmpmi5g8N\downloaded_packages

Old packages: 'BBmisc'

Update all/some/none? [a/s/n]: n

> biocLite(hgu133a2probe)

错误于match(x, table, nomatch = 0L) : 找不到对象'hgu133a2probe'

> biocLite("hgu133a2probe") #安装bioconductor中的人类基因组表达谱芯片HG-U133A的探针数据包

BioC_mirror: http://bioconductor.org

Using Bioconductor version 2.14 (BiocInstaller 1.14.2), R version

3.1.0.

Installing package(s) 'hgu133a2probe'

试开URL’http://bioconductor.org/packages/2.14/data/annotation/bin/windows/contrib/3.1/hgu133a2probe_2.14.0.zip'

Content type 'application/zip' length 2691361 bytes (2.6 Mb)

打开了URL

downloaded 2.6 Mb

The downloaded binary packages are in

C:\Users\baoli\AppData\Local\Temp\Rtmpmi5g8N\downloaded_packages

Old packages: 'BBmisc'

Update all/some/none? [a/s/n]: n

> dna<-DNAString("TCTCCCAACCCTTGTACCAGT")

错误: 没有"DNAString"这个函数

> dna <- DNAString("TCTCCCAACCTTGTACCAGT")

错误: 没有"DNAString"这个函数

> library(Biostrings) #加载bioconductor中的Biostrings包

载入需要的程辑包：BiocGenerics

载入需要的程辑包：parallel

载入程辑包：‘BiocGenerics’

下列对象被屏蔽了from ‘package:parallel’:

clusterApply, clusterApplyLB, clusterCall, clusterEvalQ,

clusterExport, clusterMap, parApply, parCapply, parLapply,

parLapplyLB, parRapply, parSapply, parSapplyLB

下列对象被屏蔽了from ‘package:stats’:

xtabs

下列对象被屏蔽了from ‘package:base’:

anyDuplicated, append, as.data.frame, as.vector, cbind,

colnames, do.call, duplicated, eval, evalq, Filter, Find, get,

intersect, is.unsorted, lapply, Map, mapply, match, mget, order,

paste, pmax, pmax.int, pmin, pmin.int, Position, rank, rbind,

Reduce, rep.int, rownames, sapply, setdiff, sort, table, tapply,

union, unique, unlist

载入需要的程辑包：IRanges

载入需要的程辑包：XVector

> library(BSgenome.Hsapiens.UCSC.hg19) #加载人类基因组序列数据包

载入需要的程辑包：BSgenome

载入需要的程辑包：GenomicRanges

载入需要的程辑包：GenomeInfoDb

> library(hgu133a2probe) #加载HG-U133A的探针数据包注意以上这些数据包都是bioconductor

载入需要的程辑包：AnnotationDbi

载入需要的程辑包：Biobase

Welcome to Bioconductor

Vignettes contain introductory material; view with

'browseVignettes()'. To cite Bioconductor, see

'citation("Biobase")', and for packages 'citation("pkgname")'.

载入程辑包：‘AnnotationDbi’

下列对象被屏蔽了from ‘package:BSgenome’:

species

> dna<-DNAString("TCTCCCAACCCTTGTACCAGT") #建立一个"DNAString"类型的变量dna，其序列是"TCTCCCAACCCTTGTACCAGT"

> dna #显示变量dna的内容

21-letter "DNAString" instance

seq: TCTCCCAACCCTTGTACCAGT

> Biostrings::dna2rna(dna) #将变量dna由DNAString类型转变为RNAStirng类型并直接查看内容

21-letter "RNAString" instance

seq: UCUCCCAACCCUUGUACCAGU #T变成U

警告信息：

dna2rna() is deprecated. Please use RNAString() instead. #dna2rna已经被废弃，请使用RNAString()函数

> RNAString(dna) #结果与dna2ran一样

21-letter "RNAString" instance

seq: UCUCCCAACCCUUGUACCAGU

> rna<-transcribe(dna) #将变量dna中的DNA序列转录，产生一个"RNAString"类型的新对象rna

警告信息：

transcribe() is deprecated. Please use 'RNAString(complement(x))' instead

(which is how 'transcribe(x)' is implemented). #transcribe（）已经被废弃，请使用RNAString(complement（x）)函数

> rna #显示变量rna的内容

21-letter "RNAString" instance

seq: AGAGGGUUGGGAACAUGGUCA #这里可以看出transcribe后实际上是互补序列的rna形式，同时注意该结果没有遵守5`到3`的方向

> rna2dna(rna) #将变量rna由RNAString类型转变为DNAStirng类型并直接查看内容

21-letter "DNAString" instance

seq: AGAGGGTTGGGAACATGGTCA

警告信息：

rna2dna() is deprecated. Please use DNAString() instead.

> cD<-cDNA(rna) #将变量rna逆转录，得到DNAString类型新对象cD

警告信息：

cDNA() is deprecated. Please use 'DNAString(complement(x))' instead

(which is how 'cDNA(x)' is implemented).

> cD #显示变量cD的内容

21-letter "DNAString" instance

seq: TCTCCCAACCCTTGTACCAGT

> codons(rna) #查看rna的三联密码子，只有一种读码框

Views on a 21-letter RNAString subject

subject: AGAGGGUUGGGAACAUGGUCA

views:

start end width

[1] 1 3 3 [AGA]

[2] 4 6 3 [GGG]

[3] 7 9 3 [UUG]

[4] 10 12 3 [GGA]

[5] 13 15 3 [ACA]

[6] 16 18 3 [UGG]

[7] 19 21 3 [UCA]

> codons(dna) #查看dna的三联密码子，只有一种读码框

Views on a 21-letter DNAString subject

subject: TCTCCCAACCCTTGTACCAGT

views:

start end width

[1] 1 3 3 [TCT]

[2] 4 6 3 [CCC]

[3] 7 9 3 [AAC]

[4] 10 12 3 [CCT]

[5] 13 15 3 [TGT]

[6] 16 18 3 [ACC]

[7] 19 21 3 [AGT]

> codons(cD) #查看cD的三联密码子，只有一种读码框

Views on a 21-letter DNAString subject

subject: TCTCCCAACCCTTGTACCAGT

views:

start end width

[1] 1 3 3 [TCT]

[2] 4 6 3 [CCC]

[3] 7 9 3 [AAC]

[4] 10 12 3 [CCT]

[5] 13 15 3 [TGT]

[6] 16 18 3 [ACC]

[7] 19 21 3 [AGT]

> AA<-translate(rna) #翻译rna（只有一种读码框），并把翻译结果（AAString类型）存在变量AA中

> AA

7-letter "AAString" instance #显示变量AA的内容

seq: RGLGTWS

> complement(dna) #互补的DNA序列

21-letter "DNAString" instance

seq: AGAGGGTTGGGAACATGGTCA

> comdna<-complement(dna) #将互补DNA序列保存在comdna变量中

> comdna

21-letter "DNAString" instance

seq: AGAGGGTTGGGAACATGGTCA

> reverseComplement(dna) #反向互补序列

21-letter "DNAString" instance

seq: ACTGGTACAAGGGTTGGGAGA

> revdna<-reverseComplement(dna)

> revdna

21-letter "DNAString" instance

seq: ACTGGTACAAGGGTTGGGAGA

> reverse(dna) #反向序列

21-letter "DNAString" instance

seq: TGACCATGTTCCCAACCCTCTr

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：真核有参RNA-seq分析流程

后一篇：《R语言初学者指南》两习题

新浪BLOG意见反馈留言板　欢迎批评指正