一个公共数据集可以被挖掘多少次

是我太年轻
学员群有咨询 Agilent-038314 CBC Homo sapiens lncRNA + mRNA microarray V2.0 这个表达量芯片的数据处理问题,当然了,主要是芯片的探针ID对应基因名字的问题。 链接是;https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL18109
因为大家还是初学者,所以我就想着先打击一下,说这样的芯片比较难,肯定是很少有人挖掘它,因为它仅仅是提供了探针的碱基序列,有一个费时费力的流程去拿到该芯片的注释信息:
image-20210314111615678
比如我们可以看到《LncRNA and mRNA integration network reconstruction reveals novel key regulators in esophageal squamous-cell carcinoma》 这个2019的文献,链接是: https://doi.org/10.1016/j.ygeno.2018.01.003
就对这个芯片做了非常复杂的处理:
image-20210314111733902
Microarray data contained 71,584 probes. After applying the criteria for re-annotation, 39,068 of the probes were retained, among which 20,323 were corresponding to mRNAs and 18,745 to lncRNA.
最后这些探针还需要去冗余,得到:These probes were mapped to 25,018 unique genes, including 13,490 protein coding genes (PCGs) and 11,528 lncRNAs.
而且这些数据,文章都整理好了,都在附件:
image-20210314112015333
现在你还在发愁,这样的芯片,如何做ID转化吗?

让我吃惊的是

出于职业习惯,我去看了看这个数据集页面: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE53625
发现它居然链接到了4个文献:

Comments are closed.