众所周知,在肿瘤单细胞数据里面,对恶性细胞来说,病人的分类作用是远大于细胞类型的,不过其实肿瘤恶性细胞也说不出什么确切的细胞类型,目前仅仅是根据TCGA的bulk转录组数据进行分子分型。但是对免疫细胞或者其它并不恶性的单细胞来说呢,细胞类型的作用是远大于病人的个体异质性的。如下所示:
而细胞周期对单细胞转录组数据的影响,我们通常是矫正掉,防止它成为细胞分群的主要推手。但是我最近看到一个文章,却把细胞周期保留下来了,作为细胞分群的主要因素。就是发表在Cancer Cell 2019 Sep的文章 PMID: 31474569:《Single-Cell Transcriptomics in Medulloblastoma Reveals Tumor-Initiating Progenitors and Oncogenic Cascades during Tumorigenesis and Relapse. 》,仅仅是做了一个10X单细胞转录组样品,链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE120966
我注意到它的10x单细胞转录组数据的细胞分群的百分比非常悬殊,93%都是 granule neuron progenitors (GNPs) ,因为它们都表达 GNP marker Zic1 ,其它的主要是:
- GABAergic neurons (2.4%),
- oligodendrocytes (1.6%),
- glutamatergic neurons (1.3%),
- immune cells (0.9%),
- astrocytes (0.8%)
这里作者仅仅是根据Seurat的默认分析结果,来把占比高达93%的GNPs进行进一步分类, further differentiated by phases of the cell cycle, and mature post-mitotic populations,居然是根据细胞周期进行分类,如下所示:
可以看到,细胞周期的G1,S,G2M都成为了 granule neuron progenitors (GNPs) 细胞的亚群。
但是我总觉得它这样的展现怪怪的:
其实细胞周期基因是已知的, 在2015年发表在CELL杂志的drop-seq单细胞文章《Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets》里面看到的细胞周期基因列表,Gene sets reflecting five phases of the HeLa cell cycle (G1/S, S, G2/M, M and M/G1) were taken from Whitfield et al. (Whitfield et al., 2002) 事实上这篇文章引用率非常之高,目前(2020-11-08 )引用超3000了。We then averaged the normalized expression levels (log2(TPM+1)) of the genes in each gene-set to define the phase-specific scores of each cell. 这个数据集的细胞周期分析还有一个文档:https://jdblischak.github.io/singleCellSeq/analysis/cell-cycle.html
这个基因集下载地址是:http://www.cell.com/cms/attachment/2108156823/2082342015/mmc2.xlsx
可以看到 early GNP marker Atoh1 并不会在 GNP_matrue表达,但是GNP marker Zic1 在全部的4个GNP亚群里面都有表达。各个细胞周期基因呢,也是在各自的亚群高表达。学徒作业
大名鼎鼎的Satija lab的 Seurat 从 v3.1 开始,有了Cell-Cycle Scoring and Regression模块,这样就跟我们之前一直讲解的scran包对上了,是时候比较一下两者的效果啦。可以使用这个数据集来做一下scran包和Seurat包的细胞周期评分对比。
仅仅是 一个10X单细胞转录组样品,链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE120966