早在2015年,那时候我进入生信领域还不满两年,就看到了一则新闻,说百度CEO李彦宏将个人捐赠3000万元,支持百度与北京协和医学院针对食管癌基因组研究的合作。
当时的我仅仅是把它当做普通新闻看了看,具体的合作项目将于2016年初启动,在两年时间内完成1500例食管癌患者的组织样本收集,100个食管癌家系血液样本的收集,并将在2017年年前完成整个项目的测序和生物分析工作。
我国食管癌发病率高居世界首位。据估算,全球53.8%的食管癌患者都在中国。由于缺乏早期诊断的标志物,食管癌的临床治疗效果欠佳,大部分患者发现时已是晚期。而且,我国的食管癌患者95%以上是食管鳞癌,而欧美国家多为食管腺癌。
实际上那个时候的我既不知道癌症的医疗现状,也不知道癌症基因组研究花费几何,因为直播我的基因组活动都是在2016年下半年了:
- 【直播】我的基因组(一):直播的目的及意义
- 【直播】我的基因组(二):科研和临床分析调研
- 【直播】我的基因组(三):抽血送样测序
- 【直播】我的基因组(四):计算资源的准备
- 【直播】我的基因组(五):测试数据及参考基因组的准备
- 【直播】我的基因组(六):变异位点注释数据库的准备
当然,我私人测序耗费不到6000块钱,肯定不是1500例食管癌患者全基因组测序单价。既然百度CEO李彦宏是捐赠3000万元,平摊到1500例食管癌患者,全基因组测序花费应该是2万元每个人。因为一个患者需要50X的血液测序加上150X的肿瘤样品测序,也就是说,如果不考虑大客户折扣,以及自己购置测序中心的成本优势的话,一个肿瘤患者的全基因组测序相当于4个正常人的测序价格咯。初见508个食管癌病人全基因组数据
大约一年前,我看到一篇文章,发表在NC杂志上,时间是11 April 2019,标题是Multi-region sequencing unveils novel actionable targets and spatial heterogeneity in esophageal squamous cell carcinoma,该研究对33个食管癌病人进行了多位点取样,关键是其研究结论在一个含508个食管癌病人队列全基因组数据里面验证了。
For the 508-WGS cohort, we performed deep WGS of microdissected tumor tissues and matched adjacent non-cancerous specimens from 508 ESCC patients with detailed medical records and survival data. All tumors were therapy naïve. Paired-end sequencing was performed using an Illumina HiSeq system following Illumina’s instructions in WuXi NextCODE at Shanghai, China. The mean coverage of sequencing of the tumor tissues was 98× and 44× in matched non-tumor samples.
当时我就无比惊讶,本来肿瘤研究领域,就很少采用全基因组这个策略,哪怕是TCGA林过万的病人,也不到2千是全基因组,其它都是全外显子组数据。而且这个队列居然是中国人的,那个时候大家都在热火朝天的挖掘TCGA数据库。
除了惊讶,让我费解的另外一点,就是这个含508个食管癌病人全基因组数据我搜遍全网都找不到文章,而且很纳闷,这么大的队列不可能处于生物信息学中心的我居然从来没有听说过啊!不过,的确事务繁多,就放下了,因为食管癌也不是我的研究领域。再次看到508个食管癌病人全基因组数据,朋友圈就被刷屏了
2020年5月12日,《细胞研究》(Cell Research)杂志在线刊载的一篇题为“Whole-genome sequencing of 508 patients identifies key molecular features associated with poor prognosis in esophageal squamous cell carcinoma”的文章中,署名单位为“Baidu”的作者“Yanhong Li”(李彦宏)为该文章的三位通讯作者之一。论文末尾还特别致谢李彦宏(百度)对该研究的慷慨支持。
而且5月12日后面的一个星期热度不下,这个时候我想起来的是五年前的新闻:百度CEO李彦宏将个人捐赠3000万元,支持百度与北京协和医学院针对食管癌基因组研究的合作。
抽空把文章pdf下了,图不多,绝大部分都是生物信息学结果,包括mutation signature,病人的TMB and MSI 状态,SNVs和CNVs的突变全景图,非编码区域的突变意义,癌症相关通路的突变情况以及突变基因的靶向药情况讨论。最重要的是,作者几乎在附件给出来了该研究的全部分析结果:figureS1-mutation-landscape.pdf figureS2-mutation-signature.pdf figureS3-validation-NFE2L2.pdf figureS4-CNV-GISTICS2.0.pdf figureS5-Potential actionable alterations.pdf s1-patients.xlsx s2-population.xlsx s3-statistics-508-cohort.xlsx s4-summary-of-SNVs.xlsx s5-SNVs-in-each-patients.xlsx s6-sanger-validation-coding.xlsx s7-sanger-validation-noncoding.xlsx s8-cosmic.xlsx s9-SMGs.xlsx s10-cox-NFE2L2.xlsx s11-SMG-cohort.xlsx s12-qPCR.xlsx s13-GISTICS2.0.xlsx s14-nonconding.xlsx s15-nonconding.xlsx s16-lasso-cox.xlsx s17-primers.xlsx
对我们生物信息学工作者来说,最重要的就是那个接近600M的maf.csv文件,全部的508个病人的肿瘤SNVs信息。
有了它, 我们可以重复其文章的几乎全部的图表!所以我计划出一个10小时教学视频,从肿瘤基因组测序开始到文章的那个接近600M的maf.csv文件,从508个病人的肿瘤SNVs信息到文献的5个主图以及部分附图的代码实践过程!关于这个肿瘤基因组测序数据分析教学视频课程
我是不会去讲解Linux和R语言基础知识的,需要你自行学习,学习资料及学习内容在:2020学习主旋律,B站74小时免费教学视频为你领路,这个计算机背景我默认生信技能树绝大部分粉丝都已经是没有问题了哈,如果还有疑问,自行完成Linux和R的视频学习以及作业题。
从DNA测序的fastq数据开始,找变异流程我也没有时间去重复性讲解了,因为B站也有这个系列教学视频; - https://www.jianshu.com/p/49d035b121b8
也有对应两个作业: - 学徒考核-计算wes数据的全部外显子的平均测序深度
- 肿瘤外显子视频课程小作业
那么,讲解什么呢?看完下面的PPT你就知道了,课程报名方法也在文末!课程报名须知
首先,课程是免费的,我录屏后由我的视频编辑师修饰好之后上传到B站,跟其它100多个小时的教学视频一样,所以你完全无需参加直播课程哈!
然后,如果要参与直播,首先需要添加我的微信小号,因为我的主号已经满5000人三次了,我实在是懒得删除好友了。主号添加微信需要付费500元,但是这个微信小号直接3折,收费150元即可。(只限前100名哦,后续微信号好友位必须涨价的)
另外,如果要参与直播,我还需要弄一个钉钉群,仅供添加了微信好友的,这个仍然是需要耗费时间来组织和维护,所以仍然是收费100元。
如果你看懂了这个课程报名须知,也确实理解了,那么就可以扫描下面的我的微信小号,添加我啦,后续课程相关通知都在这个微信小号哈。
最后,如果你实在是拮据,微信小号的150元没办法抹去(我为这个小号购买了手机+电话卡,都是成本),但是如果能提供转发此公众号推文到朋友圈集赞58个的截图给我,可以抹去100元的钉钉群辛苦费哈!
当然了,最好是不要吝啬这钉钉群的100块钱了,组织过活动的你们,都应该是知道,真的很辛苦的。