为什么一定要是预后相关基因呢

看到了一个 J Cancer . 2020 Jan的文献蛮有意思的,文章标题是:《A Stemness and EMT Based Gene Expression Signature Identifies Phenotypic Plasticity and is A Predictive but Not Prognostic Biomarker for Breast Cancer》,也就是说,标题就指出来了他们的研究对象 癌细胞干性指数以及EMT打分,这两个指标都跟癌症预后没有关系!

是不是很惊喜!

标题其实很有意思,研究者得到的基因集是 Predictive but Not Prognostic Biomarker!

其中 癌细胞干性指数以及EMT打分的背景知识大家需要自行去搜索学习一下:

  • EMT (epithelial to mesenchymal transition) state of tumors
  • CSC(cancer stem cell)-like and non-CSC-like

作者的研究重点是a novel robust gene signature ,简称和缩略词是:CSC/non-CSC gene list (CNCL) ,可以把乳腺癌细胞系区分成为:

  • cancer-stem-cell-like and mesenchymal (CS/M)
  • non-cancer-stem-cell-like and epithelial (NS/E)

这样的研究基于一个假说,就是non-CSC cells would be generated from CSC cells. 而且CD44+/CD24- cells that possess the capacity of self-renewal,所以简化成为:

  • CD44+/CD24- stem cells
  • CD44-/CD24+ non stem cells

不过并不是所有人都认可癌症干细胞这个理论哦,但是因为癌症干细胞跟癌症发生发展,转移,甚至治疗耐药有密切 关系,所以这方面的研究也是多如牛毛。

在两个细胞系药物数据库找共有差异基因

提到细胞系药物作用数据库,最出名的是 Cancer Cell Line Encyclopedia (CCLE) 和 Cancer Genome Project (CGP) / Genomics of Drug Sensitivity in Cancer (GDSC) 这两个:

其实还有broad的 CTRP和Roche的geneTech公司的数据库也类似两个细胞系药物数据库,这里先略过。

很简单,把两个数据库里面的乳腺癌细胞系区分 成为干性与否,进行差异分析即可:

干性与否的分组后差异分析

大家可以自己去下 GSE36139 (CCLE).和E-MTAB-783 (CGP). 的表达量矩阵,试试看这个差异分析。两次差异分析各自选取top200探针,然后有129个交集,对应97个基因,最后提高阈值,后 得到 15 genes/probesets (8 up and 7 down-regulated in CSC-like cell lines), 作为最后的CSC/non-CSC gene list (CNCL).基因集。全部的基因如下所示:

CSC/non-CSC gene list (CNCL).基因集

而且这15个基因集比较好的在其它数据集里面得到了验证,包括:

  • GSE15192
  • GSE36643
  • GSE52327

多个gse数据集验证基因集的临床预后能力

这些数据集涉及到了多种临床结局:

  • DSS: disease specific survival
  • OS: Overall survival
  • RFS: Relapse free survival
  • BR: Bone relapse
  • MFS: metastasis free survival
  • LNMFS: Lymph node metastasis free survival
  • BMFS: Bone metastasis free survival
  • DMFS: distant metastasis free survival
  • DRFS: Distant relapse free survival
  • DFS: disease free survival
  • TDM: time to distant metastasis
  • ND: not disclosed

详细信息如下所示:

临床数据集的详细信息

数据集虽然只有15个,但是有几个数据集有多种结局事件信息,所以总体上是29次生存分析检验。

但是有统计学显著的就7次,其中GSE25066 和 GSE2603数据集里面,该基因集是风险因子(CS/M tumors 组 死得快 ),但是在其它数据集是保护因子。

而GSE25066数据集是一个Taxane (incl. Paclitaxel) 的新辅助化疗队列,NS/E tumors 的distant relapse free survival 时间要长一点,也就是说 该基因集是风险因子(CS/M tumors 组 死得快 )。

也就是说,这个基因组在不同数据集的预后能力不一致,但是在Taxene的新辅助化疗队列里面还是有一定作用。

生存分析是目前肿瘤等疾病研究领域的点睛之笔

我在生信技能树多次分享过生存分析的细节;

Comments are closed.