公共数据库验证出来了就是对的吗

前面我们分享了流式细胞这个技术在单细胞转录组课题的应用,详见:流式细胞筛选能保证多大程度的细胞亚群纯度呢,也就是说其实它并不能保证我们百分百获取的都是目标单细胞亚群从而对它进行细致的 探索。比如这个新鲜出炉的文章:《Intratumoral CD38+CD19+B cells associate with poor clinical outcomes and immunosuppression in patients with pancreatic ductal adenocarcinoma》,就是在做单细胞转录组的时候有:The sorted CD45+CD19+ B cells 的富集操作:
The sorted CD45+CD19+ B cells
可以看到,作者的第一层次降维聚类分群里面定义的非目标单细胞亚群占比非常少,主要是t细胞的混入。作者非常机智地指出来了这一点,非常棒。但是呢,这个时候作者给他们的3个b细胞亚群定义就很奇怪,不走寻常路啊:

  • The expression profile of BANK1+ cluster 1 is similar to follicular B cells observed in non-small cell lung can- cer
  • The SSR4+ cluster 2 was also enriched for DERL3 and HSP90B1 and characterized by protein synthesis, which resembles antibody-secreting B cells
  • The CD38+ cluster 3 exhibited high expression of STMN1, TCL1A, and MME, partially aligning with germinal center B cells
    前面我们分享了在单细胞转录组降维聚类分群的第一层次降维聚类分群后的,每个单细胞亚群细分的时候,是有 单细胞亚群的生物学命名的4个规则,如下所示 :
  • 第一个规则:已知的生物学亚群
  • 第二个规则:顺序编号加上特异性高表达量基因
  • 第三个规则:生物学功能注释
  • 第四个规则:转录因子等基因集特异性亚群(更多的生物学功能数据库)
    而B细胞细分亚群是有可以参考的生物学背景知识的:
  • B细胞细分亚群
    从作者的实验描述来看,作者的CD45+CD19+ B cells ,是排除了 plasma cells ,所以作者的B cells 是可以细分成为:
  • naïve B cells (CD20+, CD27−, and CD38−), 主要的基因是 IGHD, FCER2, TCL1A, and IL4R,
  • memory B cells (CD20+, CD27+, and CD38–), 主要的基因是 CD27, AIM2, TNFRSF13B
  • germinal center (GC) B cells (CD20+, CD27+, CD38+, and CD138−),主要的基因是S1PI2, LRMP, SUGCT, MME, MKI67, and AICDA
    虽然作者并没有给出 他们自己的测序数据,但是他使用了一个广为人知的胰腺癌的单细胞转录组公共数据集(2019-PRJCA001063-PDAC),如下所示的第一层次降维聚类分群后提取里面的b细胞亚群进行细分:
    提取里面的b细胞亚群进行细分
    所以我们只需要重复一下这个广为人知的胰腺癌的单细胞转录组公共数据集(2019-PRJCA001063-PDAC)数据分析过程即可,然后把作者的基因列表在单细胞亚群进行可视化,如下所示:
    把作者的基因列表在单细胞亚群进行可视化
    确实是很有意思,因为作者造出来的 The SSR4+ cluster was also enriched for DERL3 and HSP90B1 and characterized by protein synthesis, which resembles antibody-secreting B cells.
    但是呢, 如果仔细看它,其实是在UMAP的很偏远的地方啦, 其实它大概率上就混入的非b细胞亚群了。这个讨论可以看前面的笔记:一直混入到其它单细胞亚群是为什么呢 。而且我有证据啊,只需要可视化我们的基因列表即可:
    可视化我们的基因列表即可
    实际上,作者定义的 BANK1+ cluster 应该是 naive和memory这两种b细胞的混合体,作者定义的 CD38+ cluster确实是 germinal center B cells。但是作者定义的 SSR4+ cluster 就很尴尬了其实是流式细胞技术的缺陷让b细胞里面混入了pDC这个单细胞亚群而已。详见:流式细胞筛选能保证多大程度的细胞亚群纯度呢

    作者很机智没有公开自己的矩阵

    All data supporting our findings will be made available by Prof.Si Shi (E-mail: shisi@fudanpci.org) upon reasonable request.
    但是“人算不如天算”,虽然我们确实是没办法直接使用作者的测序矩阵去复现, 但是他使用了一个广为人知的胰腺癌的单细胞转录组公共数据集(2019-PRJCA001063-PDAC),而且强调了作者自己的测序数据分析的结果可以在PRJCA001063数据集里面验证。那么我们就可以在PRJCA001063数据集推翻这个结论啦,虽然是生命科学领域绝大部分科研成功都在毫无逻辑的自说自话,但生命科学好歹也是科学所以逻辑推理仍然是有效的,毕竟生命科学又不是玄幻小说。

Comments are closed.