加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

在R中直接下载GEO数据

(2012-03-25 01:25:16)
标签:

geo

geoquery

r

bioconductor

直接

下载geo数据

分类: R
使用bioconductor的“GEOquery”包,可以直接从GEO中下载数据。尽管这个包还很粗糙,但是基本的框架已经有了。特别是对于不需要下载原始数据重新标准化的数据集,可以通过getGEO( )函数直接下载作者标准化后的数据使用。

1. 下载一个特定的数据集,这里的数据集是作者标准化之后的数据
=============================================
GSE8544 <- getGEO("GES8544", GSEMatrix = FALSE)
=============================================
Methods:
Meta(GSE8544):查看这个数据集的情况;GSMList( )和GPLList( )将GSE信息提取出来之后,也可以使用这个函数总结和访问具体信息;
GSMList(GSE8544):查看每个GSM具体;
GPLList(GSE8544):查看GPL平台,常用来作为芯片注释;
Table(GSMList(GSE8544)[[1]]):可以用来访问GSE中每个GSM的具体表达值(已经归一化),第一列列名是“ID_REF”,第二列列名是“VALUE”。
Table(GPLList(GSE8544)[[1]]):访问GPL注释,第一列与上述GSMList第一列序号一致。

2. 合并GSM数据,利用注释文件“ID”列与GSE数据“ID_REF”列标记方法相同
 GSEmerge <- do.call("cbind", lapply(GSMList(GSEdata), function(x)
                                      { tab <- Table(x)
                                        mymatch <- match(probeID, tab$ID_REF)
                                        return(tab$VALUE[mymatch])
                                      }))
3. 最后,可以将其转换为"Biobase"包的“ExpressionSet”类(问题:如何只提取GSE的注释信息,而不下载数据?)。

4. 可以使用Table(GPLList(GSE8544)[[1]])提取探针注释信息,并将其写入ExpressSet的featureData中,作为注释信息。

需要写一个脚本,完整地将GEO的信息保存在ExpressSet中

0

阅读 收藏 喜欢 打印举报/Report
前一篇:p值的那些事
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有