看到一个很简单的临床工作文章,标题是:《Association of Body Mass Index With Somatic Mutations in Breast Cancer》,发表在 Front. Oncol., 01 April 2021 | https://doi.org/10.3389/fonc.2021.613933 ,纳入了421个乳腺癌患者,根据体重分成了3组:
- normal weight group (NW);
- overweight group (OW);
- underweight group (UW).
文章的测序数据上传到了咱们国产数据库,链接是:http://www.biosino.org/node/project/detail/OEP001295.
使用的肿瘤测序panel是:Supplementary Table S3. The genes list of 520 cancer-related genes (OncoScreen Plus) ,也是一个国产的panel。 有意思的是 - 纳入的病人队列:421 female breast cancer patients from the Guangdong Provincial People’s Hospital (GDPH), from June 1, 2017 to September 27, 2018.
- 但是A total of 3547 mutations were detected in 390 genes.
- 突变的分类:
- 1765 single nucleotide variants (SNVs),
- 1645 copy number (CN) amplifications,
- 54 insertions or deletions (Indels),
- 63 fusions, 15 deletions, and 5 large genomic rearrangements (LGR)
也就是说这个队列里面并不是所有的肿瘤测序panel里面的520个基因都有突变,病人汇总信息如下:
假如有这个文章的突变maf文件,倒是可以复现出文章的几个图表。学徒作业
自己去下载TCGA的somatic突变的maf文件,然后看看一千多个比如是否能找到体重信息进行分组,如果没有的话,就按照人种分组。作业就是尽可能的复现出文章图表,主要是统计可视化的理解。
另外,为了力求真实,需要大家首先过滤一下基因,因为文章使用的是肿瘤测序panel里面的520个基因,如下所示:
文章附件就有基因列表,很容易去过滤TCGA的somatic突变的maf文件。这个文章的缺陷很明显
其实是乳腺癌本身的异质性问题,不同亚型本来就是有突变层级的差异,体重的分组效应是小于乳腺癌亚型的。
但是作者在强调自己研究的几点限制性,提到了:
- First, all the enrolled patients were Chinese.
- The mutational landscape and genomic signatures differ across ethnicities
我觉得这个并不是什么很严重的限制,反而绝大部分中国人的科研成果都是把这一点强调为优点啊!因为弥补了国际上对于这个人群研究的不足!所以问题来了,这个到底是优点还是缺点呢?难道正说反说都有理?
但是作者在第三点确实是实话实说了: Third, we were unable to perform statistical analysis for investigating the survival and prognosis of these patients, because all the patients were followed-up for less than five years. 也就是说这个数据集不能做生存分析,那么这样的研究的临床意义就大打折扣,也很难进行二次挖掘了。
不过呢,咱们有公共数据库啊,TCGA的BRCA队列很难直接使用,因为人种不一样,说服力会很勉强。