总是有粉丝在我们的各个公众号教程下面留言关于单细胞数据处理的细节问题,比如为什么我们过滤线粒体基因表达量超15%的细胞啊,为什么看核糖体基因表达量占比啊等等。其实看一下基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
就明白了, 问怎么过滤以及犹豫不决那些过滤标准的,往往是统计学背景知识不足,或者单细胞项目经验不足,所以自己没有把握去一定程度的随心所欲的改变阈值。
这个时候,推荐大家看一下动态阈值过滤,统计学是sigma法则:对于正态分布的x,x取值在(mean-3sd,mean+3sd)范围内的概率是0.9973002,这个概率外的事情基本上不可能发生。
比如于2021年3月发表在《Nature Communications》杂志的文章, 标题是:《Time-resolved single-cell analysis of Brca1 associated mammary tumourigenesis reveals aberrant differentiation of luminal progenitors》,链接是:https://www.nature.com/articles/s41467-021-21783-3
就是采用了动态阈值过滤,如下所示:
这个时候会有同学问了,为什么这个文章采用的是MAD指标而不是SD指标呢?我只能说,统计学深似海啊!同志们,加油!文末友情推荐
- 数据挖掘线下重启
- 生信爆款入门-2021每个月一期直播互动
- 最适合做单细胞转录组数据分析的服务器