25张图带你玩转表达量差异分析思路

最近看到了很多借助 单细胞水平的不同细胞亚群的差异来解释以前的传统转录组混合各种细胞亚群的样品差异的文章, 如下所示:
image-20210613113041480
研究者首先做了一个bulk转录组,走了标准的差异分析,拿到了上下调基因以及注释它们的功能。然后把这些基因在自己的单细胞转录组各个亚群具体看其是否有表达差异,发现异质性很大,以前拿到的混合状态的差异其实是细胞亚群的比例差异而已。
图来源于文章:NATURE COMMUNICATIONS | (2021)12:87 | https://doi.org/10.1038/s41467-020-20358-y
我就在思考,这完全是颠覆了以前数以万计的芯片和转录组测序项目的结论啊!而且这样的数据挖掘思路,又可以成为一个风靡中国医生群体的生物信息学灌水策略了。
我特意看了看这样的策略是否有人采用,其中语言 一个对GSE88715数据集的挖掘,文章标题是;《Identification of Key Genes Potentially Related to Triple Receptor Negative Breast Cancer by Microarray Analysis》,链接是:https://www.biorxiv.org/content/10.1101/2020.12.21.423796v1.full 看起来就有点类似;
数据集链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE88715
这个数据本身使用的是 Agilent-028004 SurePrint G3 Human GE 8x60K Microarray (Probe Name Version) 芯片,发表的文章是 Spatially distinct tumor immune microenvironments stratify triple-negative breast cancers. J Clin Invest 2019 Apr 1;129(4):1785-1800. PMID: 30753167
并不是单细胞转录组,但是呢,它里面的样品也不是传统bulk转录组的样品,而是具体到了Epithelium 和 Stroma 这样的单细胞亚群。

图1:表达芯片的质量控制

一个很简单的箱线图,有意思的是它这个明明是有问题的图表!
image-20210619152132577
居然也好意思放出来,怪不得一直在预印本没办法发表呢, 两个分组的表达量分布范围天然就有差异,后面的差异分析其实就根本站不住脚!

图2,3,4 差异分析火山图和热图

虽然作者对表达量芯片矩阵的预处理并不到位,是值得批判的,但并不影响作者自顾自的走流程,这也是绝大部分生物信息学入门选手的弱点:
image-20210619152300991
不管三七二十一,差异分析走起,上下调基因判断ok了,就火山图热图画出来了。
差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;

Comments are closed.