下载TCGA所有癌症的maf文件计算TMB
明白什么是TMB
TMB (Tumor mutation burden)的定义:癌症样本全基因组中去除胚系DNA变异后体细胞突变数目。比如Lawrence,MS团队在Nature上发表的研究中,将超过100个突变/Mb称之为高TMB。
Tumor mutation burden 涉及到两个重要概念germline mutation(种系突变或胚系突变)和somatic mutation(体细胞突变。Tumor mutation burden 涉及到两个重要概念germline mutation(种系突变或胚系突变)和somatic mutation(体细胞突变。
在实体肿瘤中,95%的突变为单个碱基的替换,造成的非同义突变(一个核苷酸突变改变一个蛋白的氨基酸顺序),错义突变(非同义点突变,单个核苷酸改变导致一个密码子编码一个不同的氨基酸)和无义突变(非同义点突变使一个密码子变为终止密码子引起多肽链合成提前终止),共同构成了体细胞非同义突变的基本要素。
研究较多的潜在bio-marker 有肿瘤突变负荷(tumormutation burden, TMB)、微卫星高度不稳定(microsatellite instability-high, MSI-H)和错配基因修复缺失(mismatch-repair deficiency,MMR),这些潜在的bio-marker又指向一个共同点突变相关新抗原(mutation-associated neoantigen)。
TMB成为bio-marker的优点与局限
- TMB可以横跨多个肿瘤进行横向分析;可潜在甄别具体的突变模式和推测新抗原负荷;高覆盖特点可以检测出罕见的体细胞突变;高通量分析可以为已知驱动突变(比如,EGFR,ALK,ROS1等);TMB可以量化;可以用于选择IO治疗高获益人群。
- TMB分析技术要求高和时间密集;NGS(如全外显子组测序)价格昂贵,医保挑战;数据复杂需要生物信息学专家解读;面临的NGS技术挑战有,石蜡包埋组织DNA/RNA降解;TMB需要有更多的临床证据说明与免疫检查点抑制剂疗效之间的关系;TMB作为潜在的bio-marker,cut off需要定义。
总而言之,TMB是潜在的预测IO疗效的bio-marker;NGS(next generation sequencing)可以用于检测TMB(选项有全基因组测序、全外显子组测序和选择性基因测序。
如何计算TMB
我看到一篇文献是这样计算 Mutation burden estimation.
The Varscan2 processed VCF files from 33 TCGA cohorts were downloaded from the GDC data portal and lifted-over from the GRCh38 to GRCh37 reference genome using CrossMap to compare with MET500. The mutations were filtered by coverage (at least 10×) and variant allelic fraction (at least 6%). These mutations were further narrowed down to be within 10 bp of the Agilent All Exon v.4 captured regions. The mutation burden was estimated as (total mutation/total covered bases) × 10^6.
其实只有最后一句话是计算公式,对外显子测序来说,目标区域一般是是45M左右,如果这个目标区域里面有90个somatic mutation,那么它的TMB就是2。只不过该文章作者对TCGA找到的mutation进行了VAF的过滤,还有测序深度的过滤,以及捕获区域的自定义。
maf格式的mutation记录文件在TCGA里面已经是level4的数据啦,所以是完全open的,可以随意下载,只需要去其GDC官网简单点击,选择即可。
主要步骤就是在https://portal.gdc.cancer.gov/repository里面点击过滤文件类型,选择maf格式,再过滤access权限,选择open即可,最后得到的132个文件就是我们需要的。
总共是2.19GB的文件,每个癌症种类都有4种maf文件,分别是用mutect,muse,vanscan,somaticsniper这4款软件call 到的somatic mutation文件。
下载方式这里我选择下载它们132个文件的manifest文件,然后用GDC提供的官方工具来下载!关于这个工具,我 在生信技能树论坛写过教程,就不多说了,自己去看哈,现在下载TCGA数据也是非常方便,首先是GDC网站及客户端 就是安装成功后,运行 ./gdc-client download -m manifest_xxx.txt
j即可。这个manifest文件就是自己刚才创造并且下载的。
cd ~/institute/TCGA/GDC_NCBI/all ~/biosoft/GDC/gdc-client download -m gdc_manifest.2017-08-25T02-57-11.281090.txt
但是这个工具,提供的电脑操作系统版本有限哦
If you are a user of CentOS 6 or RedHat Enterprise Release 6 and wish to use the Data Transfer Tool, contact the GDC Help Desk for assistance.
所以我是在MAC里面下载好了,再上传到我的服务器去的!
批量计算TMB
这里只是简单讲解一下用法,就不那么认真细致的对TCGA的somatic mutation进行过滤挑选啦,直接计算下载的maf文件的行数,除以外显子区域大小,再除以样本数量即可计算某个癌症所有样本的平均TMB。当然,因为每个somatic mutation caller的标准不一样,所以用不同的文件计算得到的结果也是有差异的。
cd institute/TCGA/GDC_NCBI/all/
for id in *gz
do
cancer=`echo $id|cut -d"." -f 2`
tools=`echo $id|cut -d"." -f 3`
all=`zcat $id|grep -v '^#' |wc -l `
samples=`zcat $id|grep -v '^#' |cut -f 16 |sort -u |grep "^TCGA"|wc -l `
TMB=$(($all/$samples))
echo $cancer $tools $TMB
done
PS: SHELL 里面有4种做加减乘除运算的方法,分别是let,expr,bc,$(()) 计算的癌症所有样本的平均TMB如下:
cancer type | muse | mutect | somaticsniper | varscan |
---|---|---|---|---|
PCPG | 0.225 | 0.325 | 0.175 | 0.225 |
THCA | 0.25 | 0.55 | 0.2 | 0.25 |
TGCT | 0.375 | 0.55 | 0.275 | 0.375 |
UVM | 0.45 | 0.575 | 0.425 | 0.45 |
THYM | 0.575 | 0.95 | 0.5 | 0.55 |
LAML | 0.675 | 1.725 | 0.5 | 0.675 |
KICH | 0.8 | 1.075 | 0.725 | 0.85 |
MESO | 0.975 | 1.15 | 0.775 | 0.925 |
PRAD | 1.175 | 1.475 | 1 | 1.175 |
KIRC | 1.425 | 1.975 | 1.05 | 1.375 |
LGG | 1.425 | 1.725 | 1.175 | 1.4 |
KIRP | 1.75 | 2.1 | 1.575 | 1.7 |
CHOL | 1.975 | 2.675 | 1.7 | 1.95 |
OV | 2.05 | 4.3 | 1.625 | 1.95 |
BRCA | 2.3 | 3.05 | 1.65 | 2.2 |
SARC | 2.35 | 2.95 | 2.025 | 2.425 |
ACC | 2.625 | 2.9 | 2.475 | 2.7 |
LIHC | 3.25 | 3.725 | 2.8 | 3.175 |
GBM | 3.35 | 5.25 | 2.725 | 3.35 |
UCS | 4.05 | 4.575 | 3.525 | 3.95 |
DLBC | 4.1 | 4.325 | 3.35 | 4 |
HNSC | 4.225 | 5.025 | 3.175 | 4.15 |
PAAD | 4.225 | 4.2 | 2 | 3.775 |
ESCA | 4.65 | 6.15 | 4.05 | 4.85 |
BLCA | 7.225 | 8.15 | 5.7 | 6.925 |
LUAD | 7.625 | 9.175 | 5.6 | 7.55 |
CESC | 7.825 | 8.925 | 6.875 | 7.725 |
LUSC | 8.075 | 9.2 | 6.3 | 7.975 |
STAD | 9 | 12.175 | 6.95 | 9.075 |
READ | 10.45 | 11.825 | 8.725 | 10.45 |
COAD | 13.05 | 16.575 | 10.425 | 13.025 |
SKCM | 20.1 | 21 | 17.325 | 20.175 |
UCEC | 38.3 | 41.8 | 33.35 | 37.5 |
PS:这里没有考虑离群点,部分样本的somatic mutation非常之多,其实是需要去除的,然后这里统一把外显子当做是40M区域来进行计数。
当然啦,计算单一癌症里面所有样本的平均TMB意义不大,一般是所有个体的TMB,根据癌症种类不同来画boxplot进行比较。
也可以比较不同软件对同一个癌症找到somatic mutation计算的TMB的区别。