最近接到粉丝求助,他看到了一个很简单的肿瘤单基因数据挖掘文章:A TP53-associated gene signature for prediction of prognosis and therapeutic responses in lung squamous cell carcinoma**提到了一个药物预测分析:
不知道如何理解,如何复现,如何应用到自己的数据。
转录组数据+药物
我仔细看了看参考文献,这个就是我三年前介绍过的:使用CGP数据库的表达矩阵进行药物反应预测
发表这个算法的文章是:Clinical drug response can be predicted using baseline gene expression levels and in vitro drug sensitivity in cell lines 发表时间是:Genome Biology 2014 https://doi.org/10.1186/gb-2014-15-3-r47
作者选取了Cancer Genome Project (CGP) 数据库里面收录的 700多种细胞系的 138 种药物的作用情况,开发了用CGP数据库的表达矩阵进行药物反应预测算法,而且在 4 个符合要求的数据集里面验证了其算法的可靠性。算法概况起来就是5个步骤:
- 第一步,把两个表达矩阵(CGP数据库以及自己待预测的表达矩阵)合并,就是Training (cell lines) and test (clinical trial) datasets ,通过sva包的ComBat()函数,去除低表达量基因以及低变化量基因。
- 第二步,使用 ridge包的linearRidge()函数做岭回归分析,其中药物敏感性的IC50值需要用car包的powerTransform函数进行转换,根据训练集的数据把模型构建成功就可以使用 predict.linearRidge() 来预测测试集的病人的药物反应情况了。
- 第三步,留一交叉验证,每次假装不知道一个细胞系的药物反应情况,用其它的所有的细胞系数据来预测它。最后把预测值和真实值做相关性分析。
- 第四步,使用glmnet包做ElasticNet and Lasso 回归
- 第五步,药物敏感性分成sensitive (15 samples) or resistant (55 samples) 两个组别,做 logistic ridge 回归。
至于文献提到的那个被包装起来的pRRophetic包
虽然说已经发表了文献,但是作为工具类文章,引用有点低的可怜:
发表的杂志是 PLoS One. 2014; 9(9): 提供了两个使用其R包的入口: - website (http://genemed.uchicago.edu/~pgeeleher/pRRophetic)
- GitHub (https://github.com/paulgeeleher/pRRophetic).
居然并没有bioconductor链接,很有可能是这么多年过去了,当年开发R包的人已经了无音讯了吧,也不可能是有人来维护它,我看了看包的介绍,重点就是一个pRRopheticPredict函数:Thus, as a proof-of-concept we applied CGP derived models (using the pRRopheticPredict() function) to data from the Cancer Cell Line Encyclopedia (CCLE) for the MEK inhibitor PD0325901.
感兴趣的本科生或者研究生可以考虑,以这个为切入点,我不可能为了一个粉丝的提问,就解析这个包,感觉这个工作量有点大!
如果大家感兴趣秀本科生活动,我 已经带领了近100名优秀本科生了解生物信息学相关毕业设计:这120万我就不要了,送给500名优秀本科生,符合条件的继续报名哈!基因组数据+药物
无独有偶,我最近在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》,就看到了研究者通过508个食管癌病人的WGS数据,找到了22个显著突变基因,然后也关联到了药物信息,给他们的研究增添了色彩(凑图):
Here, we found that 77 out of 508 (15.2%) patients had at least one genomic alteration among the 40 targetable alterations in the curated precision oncology knowledge base (oncoKB) (Supplementary information, Fig. S5a).
OncoKB:由Memorial Sloan Kettering癌症中心(MSK)开发并维护的精准肿瘤学知识库。该知识库以体细胞突变为核心,收录突变对应靶向药的精准使用、突变在生物学与肿瘤学方面的影响以及突变在人群中的分布频率特征等信息。
把癌症有关的体细胞突变分成3类: - 不同级别靶向药使用建议的“可行动突变”(Actionable mutation)
- 明确与癌症发生或发展相关的“致癌突变”(Oncogenic mutation)
- 虽与癌症相关但尚未研究清楚的“意义未明突变”(VUS mutation)
其实,就是一个数据库查询,并没有什么预测的事情。那么表观数据+药物呢?
需要大家自行阅读文献了,比如:《Epigenetic protein families: a new frontier for drug discovery》
以及dbEM数据库,标题为:《dbEM A database of epigenetic modifiers curated from cancerous and normal genomes》,数据库网站链接为: - http://crdd.osdd.net/raghava/dbem/index.php
dbEM数据库中收集了167个表观遗传相关蛋白,并按蛋白的染色体位置分类,同时统计各基因在不同肿瘤中的突变频率。此外还收集了54个药物(抑制剂),这些化合物能够帮助研究人员进行下一步的靶点验证和细胞信号通路的研究。终极大招:多组学+药物
众所周知,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
- DNA Sequencing
- miRNA Sequencing
- Protein Expression array
- mRNA Sequencing
- Total RNA Sequencing
- Array-based Expression
- DNA Methylation
- Copy Number array
知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如: - Broad Institute FireBrowse portal, The Broad Institute
- cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center
但是TCGA数据库记录的病人信息里面关于药物的并不多,而且病人又不能随意做药物测试,所以仍然是需要细胞系或者类器官培养后的大量实验数据。