多个单细胞转录组样本的数据整合之CCA-Seurat包

单细胞水平的研究是仅次于NGS的一次生物信息学领域的革命,同样的随随便便发CNS的黄金时期也过去了,现在想发高分文章,拿多个病人的多个样本进行单细胞转录组测序是非常正常的,比如下面的:

  1. how can disparate single-cell datasets, produced across individuals, technologies, and modalities be harmonized into a single reference.
  2. once a reference has been constructed, how can its data and meta-data improve the analysis of new experiments?

    示例的2个样本整合的效果

    canonical correlation analysis (CCA)
    在Seurat官网的最简单例子是两个样本,本来是有很明显的样本差异的,使用CCA整合后右图可以看到样本间差异就被抹去了。
    image-20190904103514454
    如果你下载文章仔细学习,会发现作者还举了很多其它例子,包括不同单细胞转录组技术平台数据整合,甚至不同物种(人和鼠)的数据整合,还有不同物种不同技术平台的综合整合,可以说是很厉害了,如下:
    image-20190904113828097
    就是不同技术平台:3,451 hematopoietic progenitor cells from murine bone marrow sequenced using MARS-Seq (2,686) and SMART-Seq2 (SS2; 765).
    如下:
    image-20190904113934379
    就是不同物种:10,191 pancreatic islet cells from human (n = 8,424 cells) and mouse (n = 1,767 cells) donors .

    用法代码

    因为这个被他们实验室自己的CCA + anchors (Seurat v3)取代了,所以学这个CCA + dynamic time warping (Seurat v2) 的意义可能不大,我这里就贴一下作者的示例代码,来自于:https://rdrr.io/cran/Seurat/man/RunCCA.html 需要 (Seurat v3)

    pbmc_small
    # As CCA requires two datasets, we will split our test object into two just for this example
    pbmc1 <- subset(pbmc_small, cells = colnames(pbmc_small)[1:40])
    pbmc2 <- subset(pbmc_small, cells = colnames(x = pbmc_small)[41:80])
    pbmc1[["group"]] <- "group1"
    pbmc2[["group"]] <- "group2"
    pbmc_cca <- RunCCA(object1 = pbmc1, object2 = pbmc2)
    # Print results
    print(x = pbmc_cca[["cca"]])
    

    不过,在单细胞天地我也会继续更新一下实际例子,测试数据在里面!
    image-20190904115646369
    如果你需要这些单细胞转录组数据整合学习资料,可以去单细胞天地公众号回复数据整合,即可获取,其中10x数据上游处理都在:

Comments are closed.