如果你研究癌症,那么TCGA计划的如此丰富的公共数据你肯定不能错过,一般人只能获取到level3的数据,当然,其实一般人也没办法使用level1和level2的数据,毕竟近万个癌症样本的原始测序数据,还是很恐怖的,而且我们拿到原始数据,再重新跑pipeline,其实并不一定比人家TCGA本身分析的要好,所以我们直接拿到分析结果,就足够啦!
而分析结果里面,最有用的就是somatic mutation了,我前面很多博客都提到过somatic mutation,包括它的概念以及分析流程,但是我们还有更方便的办法,直接下载已经分析好的somatic mutation文件!
至少目前所有TCGA的somatic mutation文件都是可以下载的:https://wiki.nci.nih.gov/display/TCGA/TCGA+MAF+Files
里面包含的somatic mutation非常多,都是MAF格式记录的,首先,根据各个癌症种类,分成了单独的文件,这样你想研究哪个癌症就下载哪个,然后对每个癌症种类,每次TCGA发表一篇文章,就有一个对应的MAF文件。你可以根据它文章所讲的思路重新别人的分析流程。