单细胞转录组数据处理之细胞亚群注释

前面我们一起学习到了单细胞转录组数据的降维聚类分群,基本上跑的都是标准代码,里面很多细节参数是需要自己慢慢摸索的。保证单细胞转录组表达矩阵质量ok啦,而且需要去除了各种混杂因素。
因为参数需要自己摸索和调整,所以其实拿到细胞亚群数量是因人而异的,取决于你前面降维的程度,分群的算法和参数。不过最重要的是拿到了不同细胞亚群后需要对它进行命名,给出生物学的解释。不同的人分析同一个数据集,有略微不同的结果是可以接受的,保证自己的生物学故事圆满即可。

细胞亚群注释依赖标记基因

我给大家的单细胞进阶课程里面,示例文章《Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA》, 就是一个使用seurat标准流程对PBMC分群后如下:
seurat标准流程对PBMC分群
得到了这13个细胞类群,而且也细致的决定它们的亚群名字。实际上PBMC的不同细胞亚群的标记基因是比较明确的,比如:在文章:Nucleic Acids Res. 2018 Apr ,dropClust: efficient clustering of ultra-large scRNA-seq data,就写的很清楚:
PBMC细胞亚群的标记基因列表
这些标记基因在不同亚群细胞的表达量热图或者小提琴图展示一下,就明白了为什么它们可以作为标记基因,来对细胞亚群进行命名啦。该系列教程如下:

也可以通过差异基因来进行注释

比如下面的描述,取top100的差异基因,即便是如此,研究者也仍然是找到了不少已知的标记基因来可视化验证。
取top100的差异基因

单个标记基因可视化以小提琴图和热图展现

两个可视化方法被集成在seurat包里面,如下所示
小提琴图或者热图
代码通常是:

markers_df <- FindMarkers(object = sce, ident.1 = 8, min.pct = 0.25)
print(x = head(markers_df))
markers_genes = rownames(head(x = markers_df, n = 5))
VlnPlot(object = sce, features =markers_genes,log =T )
FeaturePlot(object = sce, features=markers_genes )

就是VlnPlotFeaturePlot 两个函数,当然,也是可以自己获取细胞的二维平面坐标,以及指定基因的表达值,自定义绘图函数。

多个标记基因的可视化也是热图为主

下面的例子是,把细胞亚群的基因表达值取一个统计量(平均值或者中位值)来作为该基因在该细胞亚群的表达量。所以热图展现多个标记基因在全部细胞亚群的表达量热图,也不会拥挤:
多个标记基因的可视化热图
但是,如果要展现多个标记基因在全部细胞的表达量,而不仅仅是细胞亚群,热图就会很拥挤,如下所示:
多个标记基因在全部细胞的表达量热图
可以看到,每个细胞亚群虽然从注释的角度来说,指定的几个高表达量基因即可定义它,但是它本身特异性高表达的其它基因也会很多。所以作者单独把值得一提的标记基因,在热图坐标高亮出来。

细胞亚群可以分成主要亚群和次要亚群

Impact of the Microenvironment on Breast Immune Cells
(A) Breast immune cell atlas constructed from combining all patient samples (BC1–8) and tissues using Biscuit, projected with t-SNE. Each dot represents a cell, colored by cluster; major cell types are marked according to Figure 2F, H and Table S2, 3.
主要亚群和次要亚群

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

Comments are closed.