你的芯片数据结果跟已发表的完全不一致咋办

最近看的一个很有趣的文献,里面很直白的说自己的差异分析得到的基因集,跟前面两个研究的基因集,完全没有重合之处,但是作者给了比较合理的解释,所以想分享给大家。
image-20191031115932233
作者的解释是,因为GBM异质性太高!

关于CD133

CD133是肿瘤干细胞(Cancer stem cells, CSCs)的一个marker,所以需要同步了解肿瘤干细胞起源,最初形成肿瘤不一定是CSCs,尽管肿瘤起始细胞(Cancer-initiating cells)与CSCs有时能够互换。CSCs的存在最早是在40年前被提出来的,支持CSCs存在的最佳证据来源于对恶性血液性疾病的研究。
肿瘤干细胞分离

  • FACS(荧光激活细胞分选术)和MACS(磁珠细胞分选)是分选CSCs的主要技术。
  • FACS:通过细胞水平特殊蛋白表达、细胞培养、表观遗传学变化以及CD24、CD133、CD44等细胞水平标志物的表达方式来分离细胞。
  • MACS:干细胞分离标准方法,根据特殊干细胞标志物(如CD133)的表达分离细胞。
    文章很简单, 就是两个分组的表达矩阵的差异分析,如下:

    Here, we conducted transcriptomic profiling of sorted CD133+ and CD133− cells from human glioblastoma multiforme (GBM) and, by subtractive analysis, established a CD133 gene expression signature composed of 214 differentially expressed genes.

    一个简单的学徒作业

    值得注意的是,原文作者使用的 FACS 流式技术使用anti-CD133抗体挑选了CD133阳性和阴性细胞去做对比,大家不妨试试看,在TCGA的GBM的RNA-seq矩阵里面对肿瘤表达矩阵,根据其CD133的表达量,挑选两组样本走差异分析看看,跟作者的214个差异基因对比一下!(学徒作业

    这样的研究的临床意义

    值得一提的是,在不同癌症比较CD133阳性和阴性细胞表达量差异在不同癌症均有研究,而且还有pan-cancer的研究。
    Although CD133 is not a universal marker for brain CSCs, transcriptomic profiling of cell populations based on the presence or absence of this single protein gave rise to a 214-transcript signature related to cancer patient stratification that provided fresh insight into tumorigenesis.
    实际上呢,得到这样的基因集,很难说到底对疾病的治疗有什么实质性的帮助,另外说一句,以前的研究啊,只需要做一个芯片,看看表达量差异,注释一下就ok了,比如数据集:GSE20459 :
    image-20191031120749592
    同样的,你可以根据我的教程,走一下这个数据集GSE20459的分析,看看能不能得到文章的结果,需要细读表达芯片的公共数据库挖掘系列推文 ;

  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够
  • 从GEO数据库下载得到表达矩阵 一文就够
  • GSEA分析一文就够(单机版+R语言版)
  • 根据分组信息做差异分析- 这个一文不够的
  • 差异分析得到的结果注释一文就够
    然后看B站的GEO数据挖掘技巧,基本上该分享的都在B站和GitHub了,目录如下:
  • 第一讲:GEO,表达芯片与R
  • 第二讲:从GEO下载数据得到表达量矩阵
  • 第三讲:对表达量矩阵用GSEA软件做分析
  • 第四讲:根据分组信息做差异分析
  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
  • 第六讲:指定基因分组boxplot指定基因list画热图
  • 第七讲:根据差异基因list获取string数据库的PPI网络数据
  • 第八讲:PPI网络数据用R或者cytoscape画网络图
  • 第九讲:网络图的子网络获取
  • 第十讲:hug genes如何找

Comments are closed.