如果你看了我的单细胞转录组数据分析的 基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
会发现,里面虽然是根据线粒体和核糖体基因的比例,对细胞进行了过滤, 但是并没有改变基因的数量。基因的数量主要是在过滤那些在绝大部分细胞都不表达的,然后挑选高变基因,这样的降维操作。
但是,关于单细胞转录组下游分析是否有必要删除线粒体和核糖体基因讨论却经常性的出现在各大单细胞交流群,比如发表于2021年3月的文章,标题是:《Single-cell analyses of Crohn’s disease tissues reveal intestinal intraepithelial T cells heterogeneity and altered subset distributions》,链接是:https://www.nature.com/articles/s41467-021-22164-6 就做了这样的操作:
其单细胞表达量矩阵是公开可以获取的:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE157477
我们首先发起一个讨论,大家是否赞成在单细胞转录组下游的降维聚类分群之前进行删除线粒体和核糖体基因的操作。
另外,提出来一个学徒作业,参考前面的例子:人人都能学会的单细胞聚类分群注释 ,对 GSE157477的单细胞表达量矩阵进行两次单细胞转录组下游的降维聚类分群,首先是不进行删除线粒体和核糖体基因,然后是删除线粒体和核糖体基因后的表达量矩阵,对这两次的降维聚类分群结果进行对比!