TCGA数据库关于食管癌的,分成ESCC和EAC,其中ESCC好发于中国人群,所以作者关心TCGA数据库里面的90个ESCC病人。
根据CCL2基因的表达量,可以把TCGA数据库里面的90个ESCC病人分成高低表达CCL2的两个组,然后可以差异分析,GSEA分析等等
文章发表在Molecular Cancer 杂志,2020年2月,标题有点长,是:CCL2-CCR2 axis recruits tumor associated macrophages to induce immune evasion through PD-1 signaling in esophageal carcinogenesis
这次的学徒作业是完成下面的4幅图:
- e Heatmap of gene expression profiles of human ESCC cases (n = 90) from TCGA database.
- f Pearson correlation analysis shows tight association of CCL2 with CCR2 and PD-1.
- g Gene set enrichment analysis (GSEA) between group high (n = 52) and low (n = 38) of CCL2 expression shows enriched pathways associated with PD-1 signaling.
- h Heatmap shows that expression of PD-1 signaling pathway associated genes is correlated with CCL2 expression in human ESCC
如下图:
其中图f可以直接网页工具做出来,UCSC的xena浏览器,或者GEPIA2都可以,感兴趣的可以去学习:GEPIA2详解(中国智造-肿瘤数据库),当然了,也可以自行编程探索。需求最大的是tcga数据库的生存分析和表达量差异,看看这两个视频: - https://www.bilibili.com/video/av25643438?p=9
- https://www.bilibili.com/video/av49363776?p=6
GSEA分析
这个文章里面的gsea就是简单的一个单机版gsea的java软件运行结果罢了,我在生信技能树多次讲解GSEA分析:
- GSEA分析一文就够(单机版+R语言版)
- GSEA的统计学原理试讲
- GSVA或者GSEA各种算法都是可以自定义基因集的
- 基因集富集分析(GSEA)中的排序指标:它们重要吗?
- 200块的代码我的学徒免费送给你,GSVA和生存分析
多元化的TCGA数据库的应用
我喜欢把TCGA数据库的应用划分为8个领域:
- 1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线)
- 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图)
- 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程)
- 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图)
- 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图)
- 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序
- 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线)
- 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布
锦上添花之生存分析
如果你看的数据挖掘文章足够多, 那么生存分析你一定不会错过。比如:https://www.nature.com/articles/s41598-018-27307-2,发表在2018年6月,标题是:A seven-lncRNA signature predicts overall survival in esophageal squamous cell carcinoma ,重心就是生存分析。
我们已经多次介绍过生存分析: - 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强