单细胞水平看指定基因的表达量差异情况

看到了一个简单的单细胞转录组数据挖掘文章:《Single-cell analysis revealed that MTIF2 could promote hepatocellular carcinoma progression through modulating the ROS pathway》,这个研究就是针对GSE242889数据集进行了一个简单的降维聚类分群,然后进行合理的单细胞亚群的生物学命名,如下所示:

单细胞亚群的生物学命名

很容易读取GSE242889数据集,因为它是标准的10x单细胞转录组,而且是比较早期的。

然后因为这个单细胞转录组数据集是有分组的, 肝癌的癌症样品和癌旁组织,就可以看目标基因在具体的单细胞亚群的表达量高低情况,这个时候不需要进行差异分析,因为目标基因是确定的, 如下所示:

看目标基因在具体的单细胞亚群的表达量高低

但是,我怀疑上面的这个分析是有问题,因为上面的样品的两个分组的, 肝癌的癌症样品和癌旁组织,里面的这3个单细胞亚群的细胞数量是不一样的,而且上面压根就不需要是FPKM,更别说是log2(FPKM+1) 这样的表达量格式了。

我尝试了一下简单的降维聚类分群和命名,然后看了看如下所示的细胞数量情况 (其中 文章里面指出来了 NT 是 non-tumor; ):

细胞数量情况

让我感到困惑的是肝细胞因为是正常的细胞,但是它绝大部分都存在于癌组织,在癌旁里面很少????

另外就是上皮细胞是有可能是会恶化的,所以它在 肝癌的癌症样品和癌旁组织都是有的!

看看 MTIF2 是否有细胞亚群特异性

可以看到确实是这个MTIF2基因在肝细胞里面的三分之一的阳性,但是并不能说它在巨噬细胞和上皮细胞里面的特殊性 :

> t(table(MTIF2,sce.all$celltype))
 MTIF2
 FALSE TRUE
 Bcells 3069 360
 cycle 1823 413
 endo 3612 448
 epi 1971 443
 fibro 1131 144
 hep 6294 3039
 Mast 186 7
 myeloids 15817 2521
 Tcells 7413 503

另外就是看看这个MTIF2基因在肝细胞在上面的样品的两个分组的, 肝癌的癌症样品和癌旁组织,是否有差异呢?我也是简单的统计一下:


 FALSE TRUE
 1NT_P21 7 2
 1T_C21 297 164
 2NT_P24 20 5
 2T_C24 2385 1580
 3NT_P25 4 0
 3T_C25 480 275
 4NT_P29 9 10
 4T_C29 1755 412
 5NT_P36 3 3
 5T_C36 1334 588

就很难说清楚,虽然是这个这个MTIF2基因在肝细胞的特异性高表达是事实,但是并不能说它在肝癌病人的癌症样品和癌旁组织是有差异的。。。

学徒作业

大家试试看,处理GSE242889数据集,搞清楚里面的上皮细胞和肝细胞的恶性情况,还有它是否有MTIF2基因的特异性!

Comments are closed.