什么,基因只剩下了三分之一?

上周的《单细胞图表复现100篇》栏目,我们分享了2个NSCLC的文献,这周六我们应该是要分享4个ccRCC的文献,PPT已经制作完毕!感兴趣的可以推荐下面的会议,准时参加!(会议密码是: 1024 )
2131625048455_.pic
其中有一个ccRCC研究它的数据非常的诡异,数据并不是在GEO里面,而是直接网页附件的形式给出来了的!文章标题是:《Progressive immune dysfunction with advancing disease stage in renal cell carcinoma》
image-20210630183358446
我分别处理这两个csv文件,其中第二个文件,也就是这个缺胳膊断腿的数据,普通的降维聚类分群后,拿出来标记基因画个图,代码如下:

library(ggplot2) 
genes_to_check = c('PTPRC', 'CD3D', 'CD3E', 'CD4','CD8A','CD19', 'CD79A', 'MS4A1' ,
 'IGHG1', 'MZB1', 'SDC1',
 'CD68', 'CD163', 'CD14', 
 'TPSAB1' , 'TPSB2', # mast cells,
 'RCVRN','FPR1' , 'ITGAM' ,
 'FGF7','MME', 'ACTA2',
 'PECAM1', 'VWF', 
 'EPCAM' , 'KRT19', 'PROM1', 'ALDH1A1' )
library(stringr) 
p_all_markers <- DotPlot(sce.all.filt, features = genes_to_check,
 assay='RNA' ) + coord_flip()
p_all_markers
ggsave(plot=p_all_markers,
 filename="first_check_all_marker_by_seurat_cluster.pdf",width = 12)

结果,提示我:

Warning message:
In FetchData(object = object, vars = features, cells = cells) :
 The following requested variables were not found (10 out of 20 shown): CD3D, CD3E, CD4, CD19, CD79A, MS4A1, IGHG1, CD68, CD163, TPSAB1

也就是说,一大半的基因都是缺失的, 如下所示的:
一大半的基因都是缺失的
可以看到标志着免疫细胞的PTPRC基因仍然是在,而且上皮细胞的EPCAM也没有问题,所以勉勉强强是可以分群的。
而另外一个基因数量正常的数据集,结果如下所示:
基因数量正常的数据集
就比较容易划分亚群,不过缺失了三分之二基因的单细胞转录组数据集也不是不可以分群, 因为绝大部分单细胞亚群都并不是只有一个标记基因。肿瘤常用的 第一次分群是通用规则是:

  • immune (CD45+,PTPRC),
  • epithelial/cancer (EpCAM+,EPCAM),
  • stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
    对于缺胳膊断腿数据集,仍然是可以做出来第一层次的降维聚类分群,如下所示:
    缺胳膊断腿数据集的第一层次的降维聚类分群
    对于正常数据集,如下所示:
    正常的第一层次的降维聚类分群
    因为基因齐全,所以可以把髓系里面的处于细胞增殖期的小亚群都独立出来。
    但是,总体上来说,这两个数据集做出来第一层次的降维聚类分群居然都是符合要求的,文章使用的是tsne的展现方式,如下所示:
    文章使用的是tsne的展现方式
    可以看到,细胞比例同样的是T细胞最多,髓系其次,然后肿瘤细胞非常稀少。
    这就很有意思了:
  • 单细胞转录组数据我们需要追求基因数量的尽可能多吗?
  • 是不是其它平台,比如BD虽然在基因数量上面会逊色于10X,但其实也并不重要呢?

    学徒作业

    去gencode数据库拿到最新的人类的gtf文件,仅仅是挑选蛋白编码基因即可,约2万个,然后把基因名字按照字母顺序排好,取前面的三分之一,对它进行一些基因分布特征的检验,比如是否集中于某条染色体,或者其它一切你能想到的检验。

Comments are closed.