怎么样成功看到影响病人生存的隐藏因素呢

生存分析大家都会做了,单个或者多个基因表达量分组,肿瘤病人亚型分组策略,突变与否,多组学结合都可以分组后做生存分析。

看到2020年9月24日,俄罗斯喀山联邦大学的Igor Astsaturov发表文章Cholesterol Pathway Inhibition Induces TGF-β Signaling to Promote Basal Differentiation in Pancreatic Cancer,发现了胆固醇代谢调控胰腺导管癌发展和分化的机制,文章链接是:https://www.sciencedirect.com/science/article/pii/S1535610820304268
研究者们:we compared gene signatures between classical and basal subsets of PDAC using data from 76 high-purity (estimated >30% of transcripts originating from cancer cells) samples profiled by The Cancer Genome Atlas Research Network
针对挑选好的76个病人分组后,差异分析对基因进行排序,排序好的基因就可以跑GSEA,这里研究者选择的是:hallmark mRNA transcriptional signatures ,得到的结果如下:
hallmark mRNA transcriptional signatures 注释,GSEA方法
差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了:

当然了,ssGSEA稍微有一点门槛:6. 纯R代码实现ssGSEA算法评估肿瘤免疫浸润程度
image-20201023101813856
最后,神奇的事情发生了,根据这个“hallmark cholesterol homeostasis” signature打分,可以把76个病人首先分组,然后再继续分成basal和classic两个组,这个时候可以看到,肿瘤亚型在“hallmark cholesterol homeostasis” signature低的那个分组里面,生存分析是显著的!
image-20201023101820978
但是,问题就来了,可以看到前面的gsea分析里面,差异的基因集非常多哦,为什么作者定位到了“hallmark cholesterol homeostasis” signature呢?
莫非是作者批量跑了全部的其它通路,仅仅是“hallmark cholesterol homeostasis” signature具有隐藏分层的效应吗?

作为学徒作业

复现这个分析,首先在TCGA数据库里面找到76 high-purity (estimated >30%)的胰腺导管癌病人,然后根据basal和classic两个组进行差异分析,然后差异分析后的走gsea分析,以及单个样本的gsea分析。最后绘制出生存分析图表!

Comments are closed.