在生信技能树我发布的GEO数据库挖掘教程也有不少了:目录:
解读GEO数据存放规律及下载,一文就够
解读SRA数据库规律一文就够
从GEO数据库下载得到表达矩阵 一文就够
GSEA分析一文就够(单机版+R语言版)
根据分组信息做差异分析- 这个一文不够的
差异分析得到的结果注释一文就够
通常我都是教大家使用下面的代码下载任意GEO数据库的数据集:
options(stringsAsFactors = F)
# 注意查看下载文件的大小,检查数据
f='GSE76275_eSet.Rdata'
library(GEOquery)
# 这个包需要注意两个配置,一般来说自动化的配置是足够的。
#Setting options('download.file.method.GEOquery'='auto')
#Setting options('GEOquery.inmemory.gpl'=FALSE)
if(!file.exists(f)){
gset <- getGEO('GSE76275', destdir=".",
AnnotGPL = F, ## 注释文件
getGPL = F) ## 平台文件
save(gset,file=f) ## 保存到本地
}
load('GSE76275_eSet.Rdata') ## 载入数据
但总是有部分大陆的朋友使用起来很困难,错误如下:
通常只有的网络错误,都很诡异,毕竟长城在这里。
解决方式也简单,加上代码: options( 'download.file.method.GEOquery' = 'libcurl' )
即可!
再次运行后如下:
修改后就没有问题啦,下载进度条很喜人:
但是,这个时候会引入另外一个问题,如下:
新的问题需要新的解决方案,我们下回再讲。