RNA-seq我们在生信技能树应该是至少推出了400篇教程,而且是我们全国巡讲的标准品知识点,其中还有一个阅读量过两万的综述翻译及其细节知识点的补充:
- RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同
- RNAseq数据,下载GEO中的FPKM文件后该怎么下游分析
相信大家听完了我B站的RNA-seq分析流程后,对这个数据的应用方向都不陌生,正好给12月出师的学徒一道考核题,来自于文章;Peritumoral activation of the Hippo pathway effectors YAP and TAZ suppresses liver cancer in mice , 里面的转录组比较简单,附件也描述了分析流程,跟我B站的RNA-seq分析流程大同小异,我这里就不再赘述啦。
根据文章拿到GSE的ID号去查看数据集详情:
样本描述是: RNA-seq from purified hepatocytes (wild type and peritumoral) and from livers exposed to toxic injury (24 and 48h after TAA).
后面的图表不涉及 livers exposed to toxic injury (24 and 48h after TAA) 相关样本,主要是关心 gene expression profiles of purified hepatocytes from normal livers and livers with N-Akt tumors
就两个学徒作业,下载表达矩阵后绘制PCA图及热图,然后理解作者给出的RPM和raw_counts的差异: - RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同
- RNAseq数据,下载GEO中的FPKM文件后该怎么下游分析
作业发到我邮箱,如果你也对学徒培养感兴趣,可以先看看我是如何培养学徒的: - 七步走纯R代码通过数据挖掘复现一篇实验文章(第七步WGCNA)
- 可能只是一个函数,却要耗费你大半天
- 你要挖的公共数据集作者上传了错误的表达矩阵肿么办(如何让高手心甘情愿的帮你呢?)
- 你可能不适合做人(学徒给我的6个暴击)
当然了,RNA-seq分析肯定不仅仅是一个PCA图看看实验设计是否合理那么简单,其实跟表达矩阵的标准分析是一样的,走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下: - 第一讲:GEO,表达芯片与R
- 第二讲:从GEO下载数据得到表达量矩阵
- 第三讲:对表达量矩阵用GSEA软件做分析
- 第四讲:根据分组信息做差异分析
- 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
- 第六讲:指定基因分组boxplot指定基因list画热图
感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ; - 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
下面我们就一一品读本献是如何使用他们的RNA-seq数据的。差异分析热图
差异分析的结果:This analysis identified 3273 and 523 genes that were significantly up- or down-regulated, respectively [log2FC > 1, false discovery rate (FDR) < 0.05],注意阈值和其使用的R包即可
图例是:(D) Heat map showing up-regulation of global YAP signature genes in peritumoral hepatocytes (Hep.) relative to hepatocytes from normal livers,注意热图的归一化形式哦。
GSEA展示具体基因集
图例是:(E) GSEA plots showing the distribution of two other more inclusive sets of YAP signature genes identified from human HCC samples (10) and cultured cells overexpressing YAP (8, 28).
描述是: gene set enrichment analysis (GSEA) detected prominent Hippo pathway gene expression signatures (8–10) [normalized enrichment score (NES) = 2.57 and 2.33, FDR < 0.05] (Fig. 1, D and E).
指明了图中的基因集来源的参考文献,这个取决于大家的生物学背景。
GO/KEGG数据库注释
描述:The up-regulated genes were enriched for those encoding factors that function in cell proliferation, stress response, and wound healing (fig. S6D), 这个哪怕是你不会R语言,也是可以一大堆的网页工具帮你分析。
qRT-PCR实验验证NGS的差异基因
一般来说,NGS这样的的大批量全局检测手段大家不是特别的信任,所以通常是做一下实验挑选部分基因验证一下。
描述:Classic YAP targets, including Ctgf, Cyr61, Pdgfr, Fbn1, Ankrd1, and Birc5, were among the up-regulated genes, which was confirmed by quantitative reverse transcriptase polymerase chain reaction (qRT-PCR)
看完这个,你是不是对RNA-seq数据分析的应用有了一定的了解呢?