单基因GSEA分析策略

我写了部分常见的TCGA数据库用法

因为时间关系,这28篇教程可能还得再推迟半年!不过最近看了很多文献,有一些关于TCGA数据库的应用值得推荐,比如文章是:TRIB3 supports breast cancer stemness by suppressing FOXO1 degradation and enhancing SOX2 transcription. 发表在:Nat Commun 2019 Dec 16;10(1):5720. PMID: 31844113 就提到了根据感兴趣的基因的mRNA表达量来把TCGA数据库的某个癌症的全部病人分组,比如取高表达的前10%和低表达的10%病人,然后两个分组进行差异分析,这样的话每个基因都会有一个变化倍数,这个数值就可以把基因排序啦。排序后的基因列表,毫无疑问就可以进行GSEA分析咯。

mRNA表达量高低分组病人

原文描述的方法是:

image-20200121165947921

正文描述比较简单,而且是一回事:

image-20200121165956851

根据生物学背景挑选需要检验的基因集

GSEA分析,除了需要排序好的基因列表,还需要一个待检验的基因集,如果大家感兴趣GSEA分析原理和用法,看合辑:

文章使用的是java软件做gsea分析,出图是:

image-20200121170016539

很好描述,从TCGA数据库,下载了BRCA病人1215个的mRNA表达矩阵,然后根据TRIB3这个基因表达量分组,差异分析后GSEA,看到他们感兴趣的ES stem cell gene signatures基因集是显著富集的。

GSEA demonstrating the enrichment of gene sets related to ES stem cell gene signatures in the ranked gene list of the top 10th percentile (n = 121) vs. the bottom 10th percentile (n = 121) of breast cancer patients expressing TRIB3 from the TCGA database (n = 1215). NES, normalized enrichment score. FDR, false discovery rate.

首先需要学会下载TCGA指定数据

我挑选了部分,写了6个数据下载系列教程

然后需要有自己感兴趣的基因和基因集,然后你也想做同样的探索,但是代码能力不行,可以委托我们哈!

数据分析免费做

2019-2020的春节假期我们生信技能树推出一系列生物信息学数据分析免费做活动,先到先得哈,我们推文里面提到的数据分析环节都是我非常有经验的, 对我来说是举手之劳,希望可以帮助到你!

发送数据分析要求,以及简短的项目描述到我的邮箱 jmzeng1314@163.com

邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友很多,所以会根据你的来信,我主观判定一个优先级哦。目前我有20多个愿意长期在我的指导下进行数据探索的学徒,等我的团队扩大到200人,我们应该是可以做到数据分析全部免费,敬请期待哈!

Comments are closed.