免疫细胞亚群再分类（CNS图表复现05）

我们的CNS图表复现之旅已经开始，前面3讲是；

如果你也想加入交流群，自己去：你要的rmarkdown文献图表复现全套代码来了（单细胞）找到我们的拉群小助手哈。

既让我们根据Cells were defined as non-immune if belonging to a cluster low for PTPRC (gene for CD45)的规则，把细胞区分为了免疫细胞和非免疫细胞，详见：我在单细胞天地的教程：是否是免疫细胞很容易区分那是否是肿瘤细胞呢？

现在我们就可以来复现文章里面的免疫细胞亚群再分类了，如下：

免疫细胞亚群再分类

这幅图超级容易理解，就是13431个免疫细胞，可以继续细分为不同的亚群，如上所述。

首先我们挑选免疫单细胞

因为这个是系列连载教程，所以务必看前面的前面3讲是；

知道我是把全部的2万多个细胞的表达矩阵读入R，变成了Seurat对象，然后判断了细胞是否属于免疫细胞哈。前面的代码核心步骤是：

sce@meta.data$immune_annotation <-ifelse(sce@meta.data$RNA_snn_res.0.5 %in% imm ,'immune','non-immune')
# MAke a table 
table(sce@meta.data$immune_annotation)
phe=sce@meta.data
save(phe,file = 'phe-of-immune-or-not.Rdata')

就是把细胞是否属于免疫细胞这个信息（phe=sce@meta.data）保存下来了。后面就可以直接使用啦：

rm(list=ls())
options(stringsAsFactors = F)
library(Seurat)
library(ggplot2)
load(file = 'first_sce.Rdata')
sce <- FindClusters(sce, resolution = 0.5)
table(sce@meta.data$RNA_snn_res.0.5) 
load(file = 'phe-of-immune-or-not.Rdata')
table(phe$immune_annotation)
cells.use <- row.names(sce@meta.data)[which(phe$immune_annotation=='immune')]
length(cells.use)
sce <-subset(sce, cells=cells.use) 
sce

继续走Seurat标准流程之聚类分群

这样就拿到了免疫细胞单独进行后续分析，仍然是走Seurat标准流程之聚类分群，代码是：

sce
sce <- NormalizeData(sce, normalization.method = "LogNormalize", 
 scale.factor = 10000)
GetAssay(sce,assay = "RNA")
sce <- FindVariableFeatures(sce, 
 selection.method = "vst", nfeatures = 2000) 
sce <- ScaleData(sce) 
sce <- RunPCA(object = sce, pc.genes = VariableFeatures(sce)) 
res.used <- 0.7
sce <- FindClusters(object = sce, verbose = T, resolution = res.used)
set.seed(123)
sce <- RunTSNE(object = sce, dims = 1:15, do.fast = TRUE)
DimPlot(sce,reduction = "tsne",label=T)
DimPlot(sce,reduction = "tsne",label=T, group.by = "patient_id")
table(sce@meta.data$seurat_clusters)

然后走singleR的自动注释步骤：

sce_for_SingleR <- GetAssayData(sce, slot="data")
sce_for_SingleR
library(SingleR)
hpca.se <- HumanPrimaryCellAtlasData()
hpca.se
clusters=sce@meta.data$seurat_clusters
pred.hesc <- SingleR(test = sce_for_SingleR, ref = hpca.se, labels = hpca.se$label.main,
 method = "cluster", clusters = clusters, 
 assay.type.test = "logcounts", assay.type.ref = "logcounts")
table(pred.hesc$labels)
celltype = data.frame(ClusterID=rownames(pred.hesc), celltype=pred.hesc$labels, stringsAsFactors = F) 
sce@meta.data$singleR=celltype[match(clusters,celltype$ClusterID),'celltype']
DimPlot(sce, reduction = "tsne", group.by = "singleR")
phe=sce@meta.data
table(phe$singleR)
save(phe,file = 'phe-of-subtypes-Immune-by-singleR.Rdata')

分群结果的对比

但是我们的这个距离分群结果，跟文章是有一定差异的，如下：

分群是：

> as.data.frame(sort(table(phe$singleR)))
 Var1 Freq
1 Fibroblasts 91
2 DC 170
3 NK_cell 496
4 CMP 551
5 Neutrophils 645
6 B_cell 1957
7 Macrophage 2104
8 Monocyte 2803
9 T_cells 3698

但是它们仍然是可以细分的，如下：

文章是：

简单总结一下，文章把Macrophage和Monocyte合并起来，把B_cell区分成为两群。而我们的T_cells和NK_cell也需要被合并起来。而且 common myeloid progenitor (CMP) 这群细胞呢，在文章并没有出现，不知道是不是会被命名为 Mast-cells，需要相应的生物学背景。

文章给出的代码是；

# Annotate each of the clusters 
free_annotation <- c("T-cells","MF-Monocytes", "MF-Monocytes", "B-cells-PB", "MF-Monocytes", "T-cells", "T-cells", "Neutrophils", "Dendritic", "Mast-cells", "MF-Monocytes", "T-cells", "B-cells-M", "Unknown", "T-cells", "pDCs", "B-cells-M", "MF-Monocytes")
# free_annotation <- c("0","1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13", "14", "15", "16", "17", "18")

但是我们中间很多步骤都没有精准的模仿文章的各个流程和参数，所以这个时候的差异就没办法解决了，我们是22个群，文章是19个群。

文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍，一点一滴攻克计算机基础知识，书单在：什么，生信入门全套书籍仅需160 。
如果大家没有时间自行慢慢摸索着学习，可以考虑我们生信技能树官方举办的学习班：

数据挖掘学习班第7期（线上直播3周，马拉松式陪伴，带你入门），原价4800的数据挖掘全套课程，疫情期间半价即可抢购。
生信爆款入门-第9期（线上直播4周，马拉松式陪伴，带你入门），原价9600的生信入门全套课程，疫情期间3.3折即可抢购。

如果你课题涉及到转录组，欢迎添加一对一客服：详见：你还在花三五万做一个单细胞转录组吗？

号外：生信技能树知识整理实习生招募，长期招募，也可以简单参与软件测评笔记撰写，开启你的分享人生！另外，：绝大部分生信技能树粉丝都没有机会加我微信，已经多次满了5000好友，所以我开通了一个微信好友，前100名添加我，仅需150元即可，3折优惠期机会不容错过哈。我的微信小号二维码在：0元，10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee