传统的bulk转录组测序并没有没落,虽然说大家都在抢单细胞的热点!
单细胞技术基本上变革了生命科学领域的ngs研究,以前我们可以针对大队列癌症病人做多组学数据,其中佼佼者就是TCGA计划,然后各个组学可以独立分析或者联合分析。
比如根据表达量情况把病人分型,比如乳腺癌的分子分型:你可以看lumA、lumB、basal、HER2 等亚型,其中TNBC可以继续细分为3~7种亚型。现在有了单细胞转录组数据的加持,细胞亚型会越来越清晰。如果要整合多组学数据,分类也会更加复杂。
但是呢,传统的bulk转录组测序,其实虽然说测序的样品仍然是肿瘤组织,但是它是一个复杂的生态系统,不仅仅是有恶性的肿瘤细胞,还有围绕它的各式各样的免疫细胞,以及以内皮细胞和成纤维细胞为代表的多种基质细胞。其实那样的差异分析,往往是不同细胞比例组成的混合物的差异,而且呢,那样的分子分型,也反映的是其肿瘤病人的肿瘤组织的取样时候的不同细胞比例混合物的状态。所以很多研究,在找到了癌症特异性的表达量差异基因后,会去单细胞数据集里面验证一下,表明它仅仅是在恶性肿瘤细胞里面高表达,而不是肿瘤的微环境的其它细胞亚群高表达。
虽然说,现在有了单细胞的加持,分子分型和差异分析会更加的精确,不过单细胞的成本问题仍然是一个并没有那么快就能跨过去的门槛。其实没有单细胞也是可以研究具体的细胞亚群的表达量差异,那就是流式分选指定细胞亚群,比如:
Hepatic CD4+ or CD8+ T-cells of 12 months NASH-diet + 8 weeks treatment (IgG, α-PD-1 or α-CD8) mice were isolated by liver perfusion, mechanical + enzymatic digestion and percoll gradient enrichment and subsequently single-cell sorted (sorted gate: L/D-,CD11b-,CD11c-,CD19-,CD45+,CD4+ or CD8+ cells) and frozen on dry-ice .
数据在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE144635
Platforms (1) GPL19057 Illumina NextSeq 500 (Mus musculus)
Samples (37)
..............................
More... More...
GSM4292598 AB2035
GSM4292599 AB2036
GSM4292600 AB2037
..............................
More... More...
常规的差异分析呢,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
具体的37个样品信息,需要下载其对应的表型表格,比如第一个小鼠是: 12 months NASH-diet + 8 weeks treatment (IgG, α-PD-1 or α-CD8)
strain: C57BL/6
organ: Liver
selection marker: L/D-,CD11b-,CD11c-,CD19-,CD45+,CD4+ or CD8+
treatment: CDHFD1 + anti-PD1
mouse age: 14
感兴趣的可以去分析这个数据集看看,能不能得到文献类似的图表哈!
更多类似的先分选指定细胞亚群再进行差异表达量分析的研究
比如数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE164006
针对 liver sinusoidal endothelial cells (LSEC) 这个细胞亚群, 是2个分组所以差异分析很简单啦:
- We isolated liver sinusoidal endothelial cells (LSEC) from mice fed control chow (Chow) or the nonalcoholic steatohepatitis (NASH)-inducing high fat, fructose and cholesterol (FFC) diet, and subjected the cells to bulk RNA-seq.
- Out of 13993 transcripts detected, the adhesion molecule Vcam1 was significantly upregulated in LSEC from FFC-fed mice compared to Chow-fed mice (Log2FC: 0.925, p: 3.6x10E-18), whereas the upregulation of another adhesion molecule Icam1 (Log2FC: 0.416, p: 0.014) was not as striking as Vcam1.
这个数据集是有对应的文章:Lipid-induced endothelial vascular cell adhesion molecule 1 promotes nonalcoholic steatohepatitis pathogenesis. J Clin Invest 2021 Mar 15;131(6). PMID: 33476308
当然了,这样的简单的RNA-seq往往是不够了,常规的差异分析呢,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
所以这个研究其实是还辅助了 assay for transposase-accessible chromatin by sequencing (ATAC-Seq) ,这个技术我们也录制了对应的视频,课程观看方式
- 视频免费在B站,https://www.bilibili.com/video/BV1C7411C7ez 大家学习的时候记得发弹幕交流哈
- 同步查看视频配套代码 :https://www.jianshu.com/p/5bce43a537fd
- ATAC-SEQ实战演练的素材 链接:https://share.weiyun.com/5rYmPT1 密码:dr3ub6 包括一些公司PPT,综述以及文献。测试数据下载方式也是在里面了。
- ATAC-SEQ 实战演练的思维导图:文档链接:https://mubu.com/doc/2DG1mC2kdg 密码:rf2n
- 学徒学习笔记:https://mp.weixin.qq.com/s/7wNRrpkqcuQmJ7ASlpytqw
多组学数据整合往往就是简单的交集,绘制韦恩图,最简单的策略:
其实RNA-seq和ATAC-seq都已经单细胞化了
接下来我们会逐步解读这两个测序技术的单细胞研究情况,敬请期待!