看到于2020年11月发表在杂志《nature cancer》的文章:《Mutations in BRCA1 and BRCA2 differentially affect the tumor microenvironment and response to checkpoint blockade immunotherapy》里面有基于10X的单细胞转录组测序数据,文献链接是:https://www.nature.com/articles/s43018-020-00139-8
上游数据分析
数据在 https://www.ncbi.nlm.nih.gov/bioproject/PRJNA632854 :
需要自行下载这些数据,参考我在《生信技能树》的教程:cellranger更新到4啦(全新使用教程)
目前单细胞转录组以10X公司为主流,我们也是在单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下:
- 单细胞实战(一)数据下载
- 单细胞实战(二) cell ranger使用前注意事项
- 单细胞实战(三) Cell Ranger使用初探
- 单细胞实战(四) Cell Ranger流程概览
- 单细胞实战(五) 理解cellranger count的结果
但是这个两年前的系列笔记是基于V2,V3版本的cellranger,目前呢它更新到了版本4,建议以我的最新版教程为准,在《生信技能树》的教程:cellranger更新到4啦(全新使用教程)
如果计算机资源ok的话,基本上下载这些数据需要一两天,走cellranger流程需要一两天,就可以拿到表达矩阵了。其实作者也上传了:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE137818 可以把自己的表达矩阵跟作者的进行对比:GSM4088924 Mouse 4T1 Brca2 KO Untreated single cell RNA-seq Rep 1 GSM4088925 Mouse 4T1 Brca2 KO Untreated single cell RNA-seq Rep 2 GSM4088926 Mouse 4T1 Brca2 KO Untreated single cell RNA-seq Rep 3 GSM4088927 Mouse 4T1 Brca1 KO Untreated single cell RNA-seq Rep 1 GSM4088928 Mouse 4T1 Brca1 KO Untreated single cell RNA-seq Rep 2 GSM4088929 Mouse 4T1 Parental (BRCA WT) Untreated single cell RNA-seq Rep 1 GSM4088930 Mouse 4T1 Parental (BRCA WT) Untreated single cell RNA-seq Rep 2 GSM4088931 Mouse 4T1 Parental (BRCA WT) Untreated single cell RNA-seq Rep 3
但是它给出来的并不是原始的3文件,而是 GSE137818_scRNA_logcounts.csv.gz 一个整合好的表达矩阵。
这样的分群是不是比较简陋
假如你没有技术资源都这个上游分析,直接拿到GSE137818_scRNA_logcounts.csv.gz 这个整合好的表达矩阵走下游分析也可以。大家不要看到我们的教程提到10x单细胞转录组需要3个文件才能载入seurat就不懂得变通了,表达矩阵本身比3个文件更方便读入。不过也有一些比较特殊的文献,甚至使用了还有一些作者上传h5文件,需要使用特殊的函数了:
Read10X_h5: Read 10X hdf5 file In Seurat: Tools for Single Cell Genomics Description Read count matrix from 10X CellRanger hdf5 file. This can be used to read both scATAC-seq and scRNA-seq matrices.
载入表达矩阵后的降维聚类分群,看我在《单细胞天地》的单细胞基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
文章的第一次分群,如下:
很有意思,里面的14-16,21-23,这6群细胞作者直接就命名为ambiguous了,然后剩余的细胞都是免疫相关的细胞亚群,包括淋巴系的T,B,NK等等,以及髓系的DC,macrophage这样的myeloid细胞。
然后单独对myeloid拿出来细分亚群的时候,又是很有意思的,感觉是很粗糙:
并不需要给出具体的细胞亚群生物学命名,仅仅是根据一些关键基因的高低表达很粗暴的二分类而已,这个代码实现起来就太简单了。学徒作业有两个
首先是可以下载PRJNA632854数据集的fastq文件走cellranger流程拿到每个样品的3个文件,其次是可以直接使用GSE137818_scRNA_logcounts.csv.gz 这个整合好的表达矩阵走下游分析,拿到如上所示的两个聚类分群图。