最近逛GEO,居然发现了一个神奇的数据, 在:(accession number GSE50832). 之所以说它神奇,是因为它关联的文章是 PLoS One 2014;9(8):e106131. PMID: 25171249, 标题是:《Gene expression profiling reveals epithelial mesenchymal transition (EMT) genes can selectively differentiate eribulin sensitive breast cancer cells》。因为它这个数据集样本量超级大,使用的是最经典的芯片,Affymetrix Human Genome U133 Plus 2.0 Array,做了近600样品。
因为涉及到3个不同的癌症细胞系,所以这个数据集可以拆分成为下面的3个 :
GSE50811 Breast cancer cell lines treated with eribulin and paclitaxel
GSE50830 Endometrial cancer cell lines treated with eribulin and paclitaxel
GSE50831 Ovarian cancer cell lines treated with eribulin and paclitaxel
这600样品的转录组芯片,总共是67个细胞系,对照和2种处理,各自3个重复,如下所示:
- 27 breast, 19 endometrial, and 21 ovarian cancer cell lines treated with eribulin and paclitaxel.
非常诡异的是,作者这里主要是关心 signature genes were up-regulated for eribulin treatment as compared to paclitaxel , 使用的阈值是 p values and fold-changes (p<0.01 and FC>1.5), 3种癌症细胞系,得到了如下所示的韦恩图交集结果:
差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可; - 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
但是作者这样的分析简直是对数据的莫大浪费啊!