在R中直接下载GEO数据
(2012-03-25 01:25:16)
标签:
geogeoqueryrbioconductor直接下载geo数据 |
分类: R |
使用bioconductor的“GEOquery”包,可以直接从GEO中下载数据。尽管这个包还很粗糙,但是基本的框架已经有了。特别是对于不需要下载原始数据重新标准化的数据集,可以通过getGEO(
)函数直接下载作者标准化后的数据使用。
1. 下载一个特定的数据集,这里的数据集是作者标准化之后的数据。
=============================================
GSE8544 <-
getGEO("GES8544", GSEMatrix = FALSE)
=============================================
Methods:
Meta(GSE8544):查看这个数据集的情况;GSMList(
)和GPLList( )将GSE信息提取出来之后,也可以使用这个函数总结和访问具体信息;
GSMList(GSE8544):查看每个GSM具体;
GPLList(GSE8544):查看GPL平台,常用来作为芯片注释;
Table(GSMList(GSE8544)[[1]]):可以用来访问GSE中每个GSM的具体表达值(已经归一化),第一列列名是“ID_REF”,第二列列名是“VALUE”。
Table(GPLList(GSE8544)[[1]]):访问GPL注释,第一列与上述GSMList第一列序号一致。
2. 合并GSM数据,利用注释文件“ID”列与GSE数据“ID_REF”列标记方法相同。
3. 最后,可以将其转换为"Biobase"包的“ExpressionSet”类(问题:如何只提取GSE的注释信息,而不下载数据?)。
4. 可以使用Table(GPLList(GSE8544)[[1]])提取探针注释信息,并将其写入ExpressSet的featureData中,作为注释信息。
需要写一个脚本,完整地将GEO的信息保存在ExpressSet中。
前一篇:p值的那些事
后一篇:Biobase的使用技巧