一般来说,GEO数据库的每个GPL平台都有对应的网页,而且可以获取其详细信息的txt文本文件,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6244
就是如下所示:
如果大家点击上面的链接,就会下载一个txt文本文件,相当于是 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6244&id=17930&db=GeoDb_blob144 里面的链接下载内容。
但是有一些 平台可能是没有这样的鼠标可以点击的地方,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956
主要是因为它是 Agilent-045997 Arraystar human lncRNA microarray V3 ,其实里面的信息本来就没有基因名字。。。。
这个时候有一个办法是使用 idmap 函数 :
library(GEOquery)
gpl <- getGEO('GPL16956', destdir=".")
colnames(Table(gpl))
ids=idmap('GPL16956','pipe')
head(ids)
ids=ids[ids$symbol != '',]
cg = annoGene(ids$symbol,'SYMBOL','human')
head(cg)
ids=merge(ids,cg,by.x='symbol',by.y = 'SYMBOL')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
dat=pd_dat
ids=ids[,c(2,1)]
table(group_list)
save(dat,ids,group_list,file = 'probeM.Rdata')
我注意到,大家没办法在里面跟前面的GPL6244平台一样的下载GPL16956平台的txt文本文件,主要是因为没有鼠标点击的地方,但是实际上我们的网页链接下载的网页是有规律的, https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6244&id=17930&db=GeoDb_blob144
GEO (Gene Expression Omnibus) 是由美国国立生物技术信息中心 (NCBI) 维护的一个公开的基因表达数据库。在 GEO 中,数据主要被组织为三种类型的记录:平台 (GPL)、样本 (GSM) 和系列 (GSE)。
- GPL (GEO Platform):这是一个特定的技术平台,比如一个特定的微阵列芯片或者一个测序平台。每个 GPL 记录包含了描述平台的元数据,以及一个表,列出了平台上所有的探针和它们对应的基因。
- GSM (GEO Sample):这是一个特定的样本,比如一个特定的细胞类型在特定条件下的基因表达数据。每个 GSM 记录包含了描述样本和实验条件的元数据,以及一个表,列出了所有探针的表达值。
- GSE (GEO Series):这是一个实验系列,通常包含了多个样本(GSM)。每个 GSE 记录包含了描述整个实验设计的元数据,以及链接到所有相关的 GSM 和 GPL 记录。
在 GEO 的网站上,你可以通过 URL 直接访问这些记录。URL 的格式如下:
- 对于 GPL 记录:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPLxxx
- 对于 GSM 记录:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSMxxx
- 对于 GSE 记录:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSExxx
在以上的 URL 中,”xxx” 需要被替换为你想要查看的记录的具体编号。例如,如果你想要查看 GPL96 这个平台,你可以访问 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL96 。
前面的规律很容易理解,但是我们想要的是GEO数据库的每个GPL平台对应的详细信息获取txt文本文件的规律,就让人费解了,因为 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?mode=raw&is_datatable=true&acc=GPL6244&id=17930&db=GeoDb_blob144 里面有一些很难解释的地方,所以我求助了我们《生信技能树》的元老“甲鱼”,帮我解析了它的规律。
果然,在 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi 就可以看到:
- “Brief” displays the accession’s attributes only.
- “Quick” displays the accession’s attributes and the first twenty rows of its data table.
- “Full” displays the accessions’s attributes and the full data table.
- “Data” omits the accession’s attributes, showing only the links to other accessions as well as the full data table
所以,很容易构建:
- https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6244&targ=self&form=text&view=data
- https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16956&targ=self&form=text&view=data
这个时候仅仅是需要替换里面的GPL的信息即可,当然了,前提是,网络得好,因为是geo数据库,在海外。。。。