你的芯片数据结果跟已发表的完全不一致咋办

最近看的一个很有趣的文献，里面很直白的说自己的差异分析得到的基因集，跟前面两个研究的基因集，完全没有重合之处，但是作者给了比较合理的解释，所以想分享给大家。

作者的解释是，因为GBM异质性太高！

关于CD133

CD133是肿瘤干细胞（Cancer stem cells, CSCs）的一个marker，所以需要同步了解肿瘤干细胞起源，最初形成肿瘤不一定是CSCs，尽管肿瘤起始细胞（Cancer-initiating cells）与CSCs有时能够互换。CSCs的存在最早是在40年前被提出来的，支持CSCs存在的最佳证据来源于对恶性血液性疾病的研究。
肿瘤干细胞分离

FACS（荧光激活细胞分选术）和MACS（磁珠细胞分选）是分选CSCs的主要技术。
FACS：通过细胞水平特殊蛋白表达、细胞培养、表观遗传学变化以及CD24、CD133、CD44等细胞水平标志物的表达方式来分离细胞。
MACS：干细胞分离标准方法，根据特殊干细胞标志物（如CD133）的表达分离细胞。
文章很简单，就是两个分组的表达矩阵的差异分析，如下：

Here, we conducted transcriptomic profiling of sorted CD133+ and CD133− cells from human glioblastoma multiforme (GBM) and, by subtractive analysis, established a CD133 gene expression signature composed of 214 differentially expressed genes.

一个简单的学徒作业

值得注意的是，原文作者使用的 FACS 流式技术使用anti-CD133抗体挑选了CD133阳性和阴性细胞去做对比，大家不妨试试看，在TCGA的GBM的RNA-seq矩阵里面对肿瘤表达矩阵，根据其CD133的表达量，挑选两组样本走差异分析看看，跟作者的214个差异基因对比一下！（学徒作业）

这样的研究的临床意义

值得一提的是，在不同癌症比较CD133阳性和阴性细胞表达量差异在不同癌症均有研究，而且还有pan-cancer的研究。
Although CD133 is not a universal marker for brain CSCs, transcriptomic profiling of cell populations based on the presence or absence of this single protein gave rise to a 214-transcript signature related to cancer patient stratification that provided fresh insight into tumorigenesis.
实际上呢，得到这样的基因集，很难说到底对疾病的治疗有什么实质性的帮助，另外说一句，以前的研究啊，只需要做一个芯片，看看表达量差异，注释一下就ok了，比如数据集：GSE20459 ：

同样的，你可以根据我的教程，走一下这个数据集GSE20459的分析，看看能不能得到文章的结果，需要细读表达芯片的公共数据库挖掘系列推文；
解读GEO数据存放规律及下载，一文就够
解读SRA数据库规律一文就够
从GEO数据库下载得到表达矩阵一文就够
GSEA分析一文就够（单机版+R语言版）
根据分组信息做差异分析- 这个一文不够的
差异分析得到的结果注释一文就够
然后看B站的GEO数据挖掘技巧，基本上该分享的都在B站和GitHub了，目录如下：
第一讲：GEO，表达芯片与R
第二讲：从GEO下载数据得到表达量矩阵
第三讲：对表达量矩阵用GSEA软件做分析
第四讲：根据分组信息做差异分析
第五讲：对差异基因结果做GO/KEGG超几何分布检验富集分析
第六讲：指定基因分组boxplot指定基因list画热图
第七讲：根据差异基因list获取string数据库的PPI网络数据
第八讲：PPI网络数据用R或者cytoscape画网络图
第九讲：网络图的子网络获取
第十讲：hug genes如何找

一	二	三	四	五	六	日
« 九
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

你的芯片数据结果跟已发表的完全不一致咋办

关于CD133

一个简单的学徒作业

这样的研究的临床意义