批次效应不得不防

在最近的生信技能树推文里面我提出来了一个开放性问题 你确定你的差异基因找对了吗? 指出来了,文章的转录组数据的60个样品并没有按照毒品上瘾与否这个表型来区分,而是不同人之间的异质性非常高,这个时候我提出来了一个解决方案,就是理论上就可以把人当做是一个批次效应,使用北京大学李程课题组开发的sva包的combat函数,把这样的效应去除一下,接着再找差异。
然后评论区大家的讨论很热烈,既然是开放性问题,我这里也给不出标准答案,感兴趣的朋友可以继续参与讨论。
image-20191002095911659
但是批次效应的确是值得额外关注的,比如最近看到一个很诡异的数据集,在GEO上面公开的:GSE15903 and GSE15921 ,文章提到了他们的表达芯片数据的一个缺陷,就是同一个细胞系的3个重复并没有很好的聚集在一起。
image-20191002100157321
PS: 示例的3张图来自于我的GitHub博客:https://github.com/jmzeng1314/GEO
然后文章也很诚恳的描述了自己的数据处理思路

The expression microarray analyses were carried out in two batches. In the first batch, the RNA from two biologic replicates of 5-8F cell lines was degraded, so that microarray analyses were twice performed on two repeats in the second batch.
下面的热图是其中一种展现方式,可以看到同一个细胞系的3个技术重复被拆开了。
img
Cluster analysis for the expression profiles of the six samples with 672 probes that were most differently expressed among them.
有趣的是作者并没有使用R包进行批次效应的去除,而是简单粗暴的去除掉了其中一个批次的2个样本数据。
最后仅仅是考虑batch1的数据集
得到的差异基因比较少,是:Only 60 genes met our strict screening criteria, and 38 of these were up-regulated in 5-8F (Table 1) and 22 genes were down-regulated (Table 2).
实际上,这个策略是有问题的,不过,考虑到文章比较早期了!

批次效应和真实的生物学差异如何区分

在单细胞转录组的多个样本合并,就遇到了这样的问题,10X的单细胞样品,一次就是几千个细胞,那么两个样本的合起来就是一万个左右的细胞,如果两个样本就是不同的处理,那么它们之间必然有差异,那么合并起来的降维聚类情况, 就应该是两个样本分的很开,但是分的很开又代表着它们具有批次效应,因为每个样本都是独立建库测序了,天然就存在批次效应,头疼!
其实在数据挖掘领域,也存在这样的问题,tumor 和 normal 本来就有差异,大家都喜欢把 GTEx 和TCGA数据整合,真实差异和批次效应是需要区分的。有经验的朋友可以推荐一下好的示范文章。

Comments are closed.