在单细胞水平探究肝癌免疫微环境研究领域里,最早且出名的就是北大张泽明教授团队发表在Cell. 2017 Jun 的文章:Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing.,他们测序策略是:
Here, we perform deep single-cell RNA sequencing on 5,063 single T cells isolated from peripheral blood, tumor, and adjacent normal tissues from six hepatocellular carcinoma patients. The transcriptional profiles of these individual cells, coupled with assembled T cell receptor (TCR) sequences
一句话总结就是,6个病人的五千多个细胞,单细胞转录组测序+单细胞TCR测序。测序数据fastq文件在EGA: EGAS00001002072 ,表达矩阵在 GEO: GSE98638 ,研究人员提供了多种多样的表达矩阵供下载,所以自己拿fastq文件走NGS上游分析流程的必要性不是很强。表达矩阵如下
需要注意的是,提供多种多样数据格式,需要自行阅读量过两万的综述翻译及其细节知识点的补充:
- RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同
- RNAseq数据,下载GEO中的FPKM文件后该怎么下游分析
方便理解
作者最重要的工作是 : identify 11 T cell subsets based on their molecular and functional properties and delineate their developmental trajectory.
但是这个数据肯定不仅仅是这么一点用处,大家需要根据自己的生物学背景知识来充分利用起来这个单细胞转录组数据集哦。必须要熟悉病人的临床信息
每个病人有不同的分级,年龄也不一样,性别也是考虑因素。
取样也是需要区分,比如 peripheral blood, tumor, and adjacent normal tissues
作者分群后主要是看不同病人不同部位的肝癌免疫微环境的T细胞亚群差异
单细胞表达矩阵走我们一直讲解的R包及基础流程即可,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 流程也大同小异:
- step1: 创建对象
- step2: 质量控制
- step3: 表达量的标准化和归一化
- step4: 去除干扰因素(多个样本整合)
- step5: 判断重要的基因
- step6: 多种降维算法
- step7: 可视化降维结果
- step8: 多种聚类算法
- step9: 聚类后找每个细胞亚群的标志基因
- step10: 继续分类
可以看到,这个五千多个细胞的表达矩阵分群非常好,界限清晰:
因为不同病人和不同部位是作者的临床考量因素,所以分析当然是集中于比较他们分好的细胞亚群在他们收集的临床信息的区分情况。
所以,这个时候大家应该能意识到,并不是说你拿到了非常多细胞的表达矩阵,你就可以完成项目,如果你的实验设计不知所云,也没有生物学背景知识,你只能是从代码的角度做一些统计分析,出一下图表。并不能解释任何事情,生物学故事更是无从谈起,也不可能有publication啦!首先看不同部位肝癌免疫微环境的T细胞亚群差异
这个没什么好说的,不同部位的,肝癌免疫微环境的T细胞亚群比例肯定是有差异咯!
然后看不同病人的肝癌免疫微环境的T细胞亚群差异
这个没什么好说的,不同病人的,肝癌免疫微环境的T细胞亚群比例肯定是有差异咯!
你可以比作者考虑更深远
当然,作者肯定不仅仅是分群,然后看不同病人不同部位的免疫微环境的T细胞亚群差异,但是后续分析无论多丰富多彩,也不可能把生物学方方面面全部囊括。
比如你感兴趣的是基因A,它在肝癌领域的机制。就可以根据你的基因A的表达量,把这5000多个细胞分成两个组,然后看高低表达基因A的组里面的免疫微环境的T细胞亚群差异。
因为,每个人感兴趣的基因都不一样,所以大家的分析是很难撞车的,理论上,公共数据库的用处是无限的!
那么,亲爱的读者朋友,你想如何重新利用这个数据呢,留言你的想法,点赞最多的,我亲自免费帮你实现你的分析,在这个数据集里面。