谁说肿瘤高表达基因就是生存风险因子

非常多的粉丝在我们生信技能树后台留言询问,为什么他/她关注的基因明明是癌基因,明明是在肿瘤病人高表达(TCGA数据库搜索后的结果),但是却发现它对生存的影响居然是保护因子!(同样的网页工具)

所以我这里安排一个学徒作业,大家需要去下载TCGA数据库的BRCA这个癌症的芯片和RNA-seq的表达矩阵,分别进行差异分析,拿到统计学显著的上下调基因列表。

同样的,根据表达量把病人分成高低表达两个组后进行生存分析,这里主要是COX方法,把基因区分成为风险因子和保护因子。

然后把两次分析的基因列表取交集,会拿到9个基因集,加油!

当然了,你还可以把这个任务继续细化,比如可以把基因区分成为编码和非编码的,然后BRCA本身可以区分成为4个亚型,分开分析。

关于TCGA数据挖掘

我喜欢把TCGA数据库的应用划分为8个领域:

  • 1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线)
  • 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图)
  • 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程)
  • 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图)
  • 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图)
  • 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序
  • 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线)
  • 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布

关于TCGA数据库

TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:

  • DNA Sequencing
  • miRNA Sequencing
  • Protein Expression array
  • mRNA Sequencing
  • Total RNA Sequencing
  • Array-based Expression
  • DNA Methylation
  • Copy Number array

知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:

  • Broad Institute FireBrowse portal, The Broad Institute
  • cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center

关于生存分析

我已经在生信技能树公众号已经多次介绍过生存分析:

关于差异分析

B站视频,几乎一半,都是围绕差异分析来的。

如果你能独立完成这个学徒任务,就说明你出师了。

Comments are closed.