有学徒在完成我布置的一个月前( 2023-12-01 )的学徒作业:任意癌症的任意基因突变与否分组后的转录组测序的差异分析的时候,选择了使用TCGAbiolinks包进行TCGA的somatic的突变信息下载,但是他失败了,所以我就帮忙debug了一下。
TCGAbiolinks
是一个 R 语言中用于处理和分析 The Cancer Genome Atlas (TCGA) 数据的生物信息学工具包。该包提供了访问 TCGA 数据的接口,使用户能够检索、下载和分析癌症基因组学数据。
一般来说是三个步骤就可以获取所需要的数据啦:
- 首先是使用
GDCquery
函数可以检索符合指定条件的数据集,例如指定癌症类型、数据类型、样本类型等。 - 然后是使用
GDCdownload
函数可以下载通过GDCquery
检索到的数据 - 最后是使用
GDCprepare
函数可以整合下载的数据,将其转换成易于分析的格式。
虽然说TCGAbiolinks
本身还提供了大量的数据分析函数,主要是各种统计可视化,但是我们拿到了数据后其实就可以自己分析啦。
三个步骤的案例演示
如果我们感兴趣NSCLC的里面的LUAD数据集的somatic的突变信息的maf文件,可以借助TCGAbiolinks包进行TCGA的somatic的突变信息下载整理,代码非常简单, 如下所示:
library(TCGAbiolinks)
query <- GDCquery(
project = "TCGA-LUAD",
data.category = "Simple Nucleotide Variation",
data.type = "Masked Somatic Mutation",
access = "open"
)
GDCdownload(query)
GDCprepare(query, save = T,save.filename = "TCGA-LUAD_SNP.Rdata")
现在的网络一般来说还挺好的,因为文件也不大,如下所示:
Downloading data for project TCGA-LUAD
GDCdownload will download 618 files. A total of 61.056443 MB
Downloading as: Wed_Dec_20_11_19_05_2023.tar.gz
它其实是先下载了一个压缩包,成功之后再解压成为了文件夹给大家,解压后是每个样品一个独立的文件夹,文件夹里面才是具体的somatic的突变信息的maf文件:
但是如果换一个癌症,有时候就会出错,比如laml这个癌症,同样的代码 :
library(TCGAbiolinks)
query <- GDCquery(
project = "TCGA-LAML",
data.category = "Simple Nucleotide Variation",
data.type = "Masked Somatic Mutation",
access = "open"
)
GDCdownload(query)
GDCprepare(query, save = T,save.filename = "TCGA-LAML_SNP.Rdata")
一个学徒反馈给我他遇到的报错是:
GDCprepare(query, save = T,save.filename = "TCGA-LAML_SNP.Rdata")
Error in `dplyr::bind_rows()`:
! Can't combine `..17$Tumor_Seq_Allele2` <character> and `..18$Tumor_Seq_Allele2` <logical>.
Run `rlang::last_trace()` to see where the error occurred.
如果你认真看上面的3个步骤的代码,其实就会发现他的GDCdownload是成功的,仅仅是GDCprepare这个步骤失败,如下所示:
> GDCdownload(query)
Downloading data for project TCGA-LAML
GDCdownload will download 153 files. A total of 1.562904 MB
Downloading as: Wed_Dec_20_11_23_55_2023.tar.gz
其实就是版本问题,我的成功的版本 信息如下所示:
> sessionInfo()
R version 4.3.1 (2023-06-16 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19045)
[57] TCGAbiolinksGUI.data_1.20.0