学员的微信交流群有小伙伴提到了一个单细胞转录组数据挖掘文章:《Single cell RNA-seq data and bulk gene profiles reveal a novel signature of disease progression in multiple myeloma》,Zeng et al. Cancer Cell Int (2021) ,有意思的是文献重新分析的数据集是 GSE118900,Multiple myeloma(多发性骨髓瘤)是一种影响血液的癌症,主要涉及浆细胞(plasma cells)。浆细胞是一种白血细胞,负责产生抗体,这些抗体帮助身体对抗感染和疾病。在多发性骨髓瘤中,骨髓内的浆细胞会发生异常,变得异常增生并形成肿瘤。这种异常的浆细胞,称为骨髓瘤细胞,它们会取代骨髓中正常的血细胞,导致以下问题:
- 减少的红细胞生产:可能导致贫血,引起疲劳和虚弱。
- 减少的白细胞生产:可能导致免疫系统减弱,增加感染的风险。
- 减少的血小板生产:可能导致出血倾向或凝血问题。
此外,骨髓瘤细胞还可能分泌一种称为单克隆免疫球蛋白或M蛋白的异常抗体,这种蛋白质在体内积累,可能损害肾脏并导致其他问题。
实际上,大家很简单的在GEO数据库搜索就会发现,Multiple myeloma(多发性骨髓瘤)的单细胞转录组数据集非常多,而这个GSE118900数据集呢,首先是比较古老,其次技术也有点小众:文献标题是:《Molecular signatures of multiple myeloma progression through single cell RNA-Seq》
单细胞转录组测序技术是一系列用于分析单个细胞基因表达状态的高通量测序技术。这些技术在近年来发展迅速,为研究细胞异质性、发育过程、疾病机制等提供了强大的工具。以下是几种常见的单细胞转录组测序技术 :
MARS-Seq (Massively Parallel RNA Sequencing)
- 技术特点:MARS-Seq是一种基于高通量测序的单细胞转录组分析技术,可以同时测量成千上万个单细胞的基因表达。
- 优势:能够提供大量细胞的基因表达数据,有助于发现细胞群体中的异质性。
- 局限性:可能需要较高的起始RNA量,对稀有细胞类型的分析可能受限。
Smart-Seq
- 技术特点:Smart-Seq是一种通过全转录组扩增的方法,对单个细胞的mRNA进行无偏的全基因组表达分析。
- 优势:可以检测到低丰度转录本,适用于稀有细胞类型的分析。
- 局限性:由于扩增步骤,可能会引入扩增偏差。
Drop-Seq
- 技术特点:Drop-Seq利用微孔技术,将单个细胞的mRNA捕获在微滴中,然后进行测序。
- 优势:成本效益高,可以处理大量细胞。
- 局限性:可能会有较高的数据丢失率和细胞间交叉污染的风险。
10x Genomics Chromium
- 技术特点:10x Genomics Chromium系统使用微流体芯片和独特的凝胶微珠技术,可以在单个实验中分析成千上万个细胞。
- 优势:操作简便,数据质量高,可以提供细胞表面蛋白和基因表达数据。
- 局限性:成本较高,且对每个细胞的基因表达数据量有限。
因为这个MARS-Seq的技术其实产出的单细胞数量很少,而且是2019的数据集,那个时候并不流行基于Seurat的第一层次降维聚类分群,所以文章仅仅是根据这个表达量矩阵挑选了合适的高变基因(790个)对全部的细胞进行的类似于层次聚类一样的划分了4个亚群而已。
但是在2021的数据挖掘文章里面,重新分析这个 The dataset included transcripts of 597 individual MM cells from 15 patients (including MGUS, SMM, NDMM, and RRMM) with or without cytogenetic abnormality.
就可以走Seurat的降维聚类分群流程啦:
学徒作业
查看上面的两个文献,试试看2019的文章基于合适的高变基因(790个)的4分组跟2021的基于Seurat的7个单细胞亚群的一致性如何?