聊个天就把生存分析给做了?

前些天我和我的学徒们在生信技能树分享了教程:人人都可以学会生存分析(学徒数据挖掘),提到根据公共数据库(比如TCGA)的信息来检查具体的某个或者某几个基因的生存意义已经是非常简单了,只需要很简单的数据库网页工具认知,或者一点点代码能力

但是今天逛朋友圈发现了一个超级神器,德克萨斯大学MD安德森癌症中心梁晗教授课题组开发了一个在线网页工具:DrBioRight,” a natural language-oriented, artificial intelligence (AI)-driven omics data analysis platform (https://drbioright.org). 该文章于2020年9月24见刊在Cancer Cell杂志,文章题目是《Next-Generation Analytics for Omics Data》。居然是聊天的方式做生存分析。

DrBioRight的3大功能区

我们直接进入DrBioRight的主页: (https://drbioright.org). 如下所示:

DrBioRight的主页

从该工具主页可以看到,它里面集成了常见的生物信息学数据处理流程,我感觉在不久的将来肯定会囊括我在b站的74小时生信工程师教学视频合辑:

然后,它基本上把基于R语言的统计可视化全部搞定了,相关性分析,生存分析,差异分析都不在话下。正常情况下,从来没有编程经验的小伙伴要把R的知识点路线图搞定,如下:

  • 了解常量和变量概念
  • 加减乘除等运算(计算器)
  • 多种数据类型(数值,字符,逻辑,因子)
  • 多种数据结构(向量,矩阵,数组,数据框,列表)
  • 文件读取和写出
  • 简单统计可视化
  • 无限量函数学习

起码需要一个月!!!详见:《生信分析人员如何系统入门R(2019更新版)

最后,它集成了大量的数据库资源,包括TCGA, GTEX, CCLE等等,基本上大家无需下载它们的源数据文件,就可以在它的网页上面进行各式各样的探索。TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:

  • DNA Sequencing
  • miRNA Sequencing
  • Protein Expression array
  • mRNA Sequencing
  • Total RNA Sequencing
  • Array-based Expression
  • DNA Methylation
  • Copy Number array

知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:

  • Broad Institute FireBrowse portal, The Broad Institute
  • cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center

但是你现在有了DrBioRight,一站式搞定全部资源。

使用DrBioRight做生存分析

DrBioRight目前还不是万能的,它的核心卖点就是聊天对话式窗口,其文章举的例子就是:“perform survival analysis in breast cancer on TP53 gene expression” ,我也简单测试了一下, 结果如下:

简单的生存分析查询

最让我喜欢的功能是,它还附带了一个临时报告https://drbioright.org/reports/5f7d85a4f8a91ff1c46388e8/report.html 打开后惊喜满满~~

不过生存分析何止是这样的简单查询呢,如果你确实想把生存分析学会而且学好,我在生信技能树多次分享过生存分析的细节也值得你认真读完

“ID转换和生存分析”群的钉钉群号: 35371384,如果你下载钉钉软件,搜索进群这个能力都没有,我还是建议你放弃学生信哈!

然后我不停的调试这个对话窗口,其实很容易理解它的工作原理,它就是检测我输入语句的关键词而已:

关键词高亮

也顺便测试了一下,发现它不能识别中文

它不能识别中文

我喜欢把TCGA数据库的应用划分为8个领域:

  • 1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线)
  • 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图)
  • 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程)
  • 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图)
  • 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图)
  • 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序
  • 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线)
  • 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布

大家有空可以测试一下DrBioRight工具 (https://drbioright.org)是否可以全部完成这些需求了?

DrBioRight未来可期

如果仅仅是一个基于自然语言处理的网页工具,再加上一点人工智能的噱头,就太小儿科了。DrBioRight的开发团队目前已经完成了转录组数据处理,以及一些单细胞数据分析图表绘制的功能。

复杂图表绘制

For example, a user can start an analysis by simply asking, “Could you do an RNA-seq analysis?” and then provide the source or location of the raw data (e.g., an SRA ID). Through a dialog with DrBioRight, the user can finish the entire analysis step by step, including quality control, read mapping, gene expression quantification, differential expression analysis, and gene set enrichment analysis.

但是数据分析从来不是瓶颈

这10年,NGS基本上变革了传统的分子生物学研究,大家遇到的问题既不是测序费用高昂,也不是测序数据无法分析,反而是数据分析结果无法结合到自己的课题

直白一点说,给你生存分析结果图表,你看不懂!

前面的转录组数据全部给你处理了,quality control, read mapping, gene expression quantification, differential expression analysis, and gene set enrichment analysis 一站式流程全部搞定,图表给你,你能看懂吗?

认真学习其中的细节还是很有必要的,如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班马上10月12日就开课):

如果你课题涉及到转录组,欢迎添加一对一客服:详见:你还在花三五万做一个单细胞转录组吗?

号外:生信技能树知识整理实习生招募,长期招募,也可以简单参与软件测评笔记撰写,开启你的分享人生!

Comments are closed.