看到了一个2023的单细胞转录组数据挖掘文章:《A novel phenotype of B cells associated with enhanced phagocytic capability and chemotactic function after ischemic stroke》,主要的结论就是同时表达巨噬细胞和b细胞标记基因的亚群是全新亚群。
其实他们挖掘的是他们课题组自己的2021的文章的单细胞转录组数据: ischemic mouse brains at 5 and 14 days after tMCAO (GSE171169) ,如下所示的4个样品:
GSM5220257 5d after tMCAO 1
GSM5220258 5d after tMCAO 2
GSM5220259 14d after tMCAO 1
GSM5220260 14d after tMCAO 2
每个样品给出来了3个文件:
GSM5220257_5d_N1_filtered_gene_bc_barcodes.tsv.gz 11.0 Kb
GSM5220257_5d_N1_filtered_gene_bc_genes.tsv.gz 244.7 Kb
GSM5220257_5d_N1_filtered_gene_bc_matrix.mtx.gz 10.8 Mb
GSM5220258_5d_N2_filtered_gene_bc_barcodes.tsv.gz 14.6 Kb
GSM5220258_5d_N2_filtered_gene_bc_genes.tsv.gz 244.7 Kb
GSM5220258_5d_N2_filtered_gene_bc_matrix.mtx.gz 14.0 Mb
GSM5220259_14d_N1_filtered_gene_bc_barcodes.tsv.gz 11.2 Kb
GSM5220259_14d_N1_filtered_gene_bc_genes.tsv.gz 235.3 Kb
GSM5220259_14d_N1_filtered_gene_bc_matrix.mtx.gz 10.1 Mb
GSM5220260_14d_N2_filtered_gene_bc_barcodes.tsv.gz 10.2 Kb
GSM5220260_14d_N2_filtered_gene_bc_genes.tsv.gz 235.3 Kb
GSM5220260_14d_N2_filtered_gene_bc_matrix.mtx.gz 10.7 Mb
很容易整理它们后读取,常规的单细胞转录组降维聚类分群代码可以看 :链接: https://pan.baidu.com/s/1bIBG9RciAzDhkTKKA7hEfQ?pwd=y4eh ,基本上大家只需要读入表达量矩阵文件到r里面就可以使用Seurat包做全部的流程。感兴趣的可以去读一下2021的原文:Treg cell-derived osteopontin promotes microglia-mediated white matter repair after ischemic stroke. Immunity 2021 Jul 13;54(7):1527-1542.e8. PMID: 34015256
这次的数据挖掘主要是第一层次降维聚类分群后,然后提取里面的b细胞亚群进行细分,如下所示:
可以看到是4个10x技术的单细胞转录组样品但是总计就一万多细胞数量,因为是比较早期的数据啦。而且里面就五百多个细胞是b细胞,然后针对b细胞进行细分的时候,可以很清晰的看到里面的c2这个亚群确实是大量表达了巨噬细胞相关的标记基因了 :
这个数据挖掘的写作点,是主要做了两个数据分析来说明这个同时表达巨噬细胞和b细胞标记基因的亚群的特殊性:
- 首先是它和其它b细胞的差异分析 (Figure 2 | Transcriptomic and functional changes in MLBs involving immune responses and phagocytic activity. )
- 然后是两个不同时间点的差异的差异 (Figure 5 | The dynamic functional plasticity and quantitative changes of MLBs at different stages of stroke. )
当然了,也有拟时序和细胞通讯分析。不过,更重要的是研究者从两个方向加强了这个证据,说明了同时表达巨噬细胞和b细胞标记基因的亚群是全新亚群。流式细胞实验验证
如下所示,通过b细胞和巨噬细胞的蛋白质表面标记物,确实是可以流式获取到同时表达巨噬细胞和b细胞标记基因的单细胞亚群:
公共数据库验证
如下所示的5个数据集 (GSE171169, GSE197731, GSE175430, GSE128855, GSE163120) 都是有 类似的现象,同时表达巨噬细胞和b细胞标记基因的亚群
发散思维
其实在单细胞转录组数据分析的时候,我们经常会遇到第一层次降维聚类分群的结果里面有一些大群会混淆。通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:
- immune (CD45+,PTPRC),
- epithelial/cancer (EpCAM+,EPCAM),
- stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分,并且编造生物学故事的。
比如,t和b淋巴系免疫细胞就容易混杂,也就是说你细分的时候大概率会碰到一个既表达了t细胞也同时表达了b细胞的特异性基因的亚群,难道不也值得讲一个生物学公司吗?其它单细胞亚群混杂呢?