TCGA下载系列教程终章

TCGA的28篇教程往期目录如下:
使用R语言的cgdsr包获取TCGA数据 (cBioPortal)
TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (Broad Institute FireBrowse portal)
TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)


因为TCGA实在是一个跨时代的癌症研究项目,不能在下载这个基础环境耽误太多的功夫,下载渠道再多,也只需要一个好用的即可!
我以前在生信技能树论坛也写过 TCGA数据下载合集:
以前下载TCGA数据非常简单,都在一个远程电脑里面
现在下载TCGA数据也是非常方便,首先是GDC网站及客户端 (基于mysql数据库进行条件过滤)
现在下载TCGA数据也是非常方便,然后是firehose网站及客户端 (基于远程电脑文件夹及文件名过滤)
现在下载TCGA数据也是非常方便,接着是cgdsR和cbioportal (基于TCGA大文章分篇下载)
现在下载TCGA数据也是非常方便,倒数第二个是Synapse (基于作者整理TCGA数据上传)
现在下载TCGA数据也是非常方便,最后是各种杂七杂八的工具
下面就简单罗列几个还算是比较流行的TCGA下载器吧:

GDC官方下载工具

GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件就可以啦。
GDC客户端的说明书是:https://docs.gdc.cancer.gov/Data … de/Getting_Started/
傻瓜式软件,非常简单!
https://docs.gdc.cancer.gov/Data … ownload_and_Upload/
一般人只需要根据你搜索过滤得到的mainfest进行GDC下载数据即可,下载下来的文件,是每个样本一个文件夹,需要合并,需要了解为什么用XML来存储信息

TCGA-assembler 2

发表于 Bioinformatics, May 2018 ,https://doi.org/10.1093/bioinformatics/btx812 据作者自己说是广受好评,帮助了超过 2000 researchers from 64 countries 的科学家,所以才出第二版!
源代码及其使用教程都在:https://github.com/compgenome365/TCGA-Assembler-2
TCGA计划在2016年6月就停止招募病人了,官方数据存放地址是:Genomic Data Commons (GDC, https://gdc.cancer.gov/) 但是有新的蛋白质组学数据出来,存放在 Clinical Proteomic Tumor Analysis Consortium (CPTAC) , 该蛋白质组学使用的主要是 isobaric Tags for Relative and Absolute Quantification (iTRAQ) 这个质谱技术。
也就是说,使用可以很方便的获取包括:

  • gene expression
  • miRNA expression
  • DNA copy number
  • DNA methylation
  • somatic mutation
  • RPPA (Reverse Phase Protein Array) protein expression
  • iTRAQ protein expression (from CPTAC), and clinical and biospecimen information
    进入其GitHub看代码,很容易明白其实就是几个R脚本,详细教程也在里面:TCGA-Assembler-2/TCGA-Assembler/Tutorial.pdf
    总体来说,下载不同的数据,有着不同的下载函数,而且每个函数有着差不多的参数,通常是需要病人的ID以及下载路径等等。
    同时也可以下载多组学数据。

    TCGA2STAT

    发表于 Bioinformatics, March 2016,https://doi.org/10.1093/bioinformatics/btv677 之所以注意到这个工具,是因为它里面列举了比较详细的肿瘤类型以及各个组学数据缺失情况。
    同样,也是基于R的。
    代码举例如下:

    # Part I: Download NGS expression and methylation data for LUSC
    methyl <- getTCGA(disease=“LUSC”, data.type=“Methylation”)
    rnaseq2 <- getTCGA(disease=“LUSC”, data.type=“RNASeq2”, clinical=TRUE)
    met.var <- apply(methyl$dat, met.var >=
    quantile(met.var, 0.99, na.rm=T)&!is.na(met.var))
    rnaseq2.var <- apply(log10(1+rnaseq2$dat), 1,var)rnaseq2.var >=
    quantile(rnaseq2.var, 0.99, na.rm=T) &!is.na(rnaseq2.var))
    # Part II: Merge the two data types for integrated analysis
    met.rnaseq2 <- OMICSBind(dat1 = rnaseq.data, dat2= met.data)
    # Part III: Perform CCA on merged data, X and Y
    lusc.cc <- rcc(t(met.rnaseq2$X), t(met.rnaseq2$Y), 0.75025, 0.5005)
    

    点击进入这篇文章的附件,值得下载打印背诵,相信我!

    GDCRNATools

    发表于 Bioinformatics, March 2018 , https://doi.org/10.1093/bioinformatics/bty124 下载TCGA数据只是其中一个功能而已,它其实是 an R/Bioconductor package for integrative analysis of lncRNA, miRNA and mRNA data in GDC
    更重要的是,该R包是我们生信技能树的VIP成员开发的,于今年6月在美帝博士毕业!
    我会邀请他亲自来写该R包的教程!

    Clusternomics

    主要是TCGA肿瘤数据联合分析如基因表达,拷贝数,甲基化变化

 

Comments are closed.