本文首发于生信技能树公众号,直达链接是:https://mp.weixin.qq.com/s/-amtbxvk0mC2Nv-bwt1BeQ
2018年4月Immunity杂志上发表了文章The Immune Landscape of Cancer ,由34个单位共同合作完成。文章对TCGA中33种癌症,超过10,000个肿瘤样本进行了免疫原性分析,将所有肿瘤分成6种免疫亚型,即:
- wound healing
- IFN-γ dominant
- inflammatory
- lymphocyte depleted
- immunologically quiet
- TGF-β dominant
进一步分析:
- 不同亚型间巨噬细胞或淋巴细胞特征、Th1:Th2细胞比例、肿瘤异质性程度、非整倍性、新抗原负荷程度、细胞增殖、免疫调节基因的表达、预后等指标的差异。
- 与免疫相关的驱动突变
- 参与肿瘤免疫的细胞内和细胞间调控网络(调控网络包含转录、microRNA、拷贝数、表观遗传信息)
而且还提供了该文章的详细数据文件在附件!
首先推荐使用gdc客户端命令行工具根据文件附属的:https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt 文件来下载下面的文件:
PanImmune_GeneSet_Definitions.xlsx
TCGA_pMHC_SNV_sampleSummary_MC3_v0.2.8.CONTROLLED_170404.tsv
ABSOLUTE_scores.tsv
TCGASubtype.20170308.tsv
panimmune_cytokine_network_all_edges_july202018.tsv
merged_sample_quality_annotations.tsv
tcga.pancan.igh.div.txt
pancanMiRs_EBadjOnProtocolPlatformWithoutRepsWithUnCorrectMiRs_08_04_16.csv
mc3.v0.2.8.PUBLIC.maf.gz
EBPlusPlusAdjustPANCAN_IlluminaHiSeq_RNASeqV2.geneExp.tsv
PanCanAtlasTumors_color_coded_by_organ_system_20170302.tsv
Scores_160_Signatures.tsv.gz
TCGA_mastercalls.abs_tables_JSedit.fixed.txt
PanCanAtlas_miRNA_sample_information_list.txt
ViralListForBBT.tsv
TCGA_PCA.mc3.v0.2.8.CONTROLLED.filtered.sample_neoantigens_10062017.tsv
TCGA.HRD_withSampleID.txt
SYGNAL_immune_subtype_network_att.txt
TCGA_all_leuk_estimate.masked.20170107.tsv
all_thresholded.by_genes_whitelisted.tsv
TieDIE_PancancerImmuneModulators_1.0.sif
jhu-usc.edu_PANCAN_HumanMethylation450.betaValue_whitelisted.tsv
viral.tsv
ISAR_GISTIC.all_thresholded.by_genes.txt.gz
TCGA.Kallisto.fullIDs.cibersort.relative.tsv
seg_based_scores.tsv
all_data_by_genes_whitelisted.tsv
SYGNAL_immune_subtype_network.sif
jhu-usc.edu_PANCAN_merged_HumanMethylation27_HumanMethylation450.betaValue_whitelisted.tsv
mitcr_sampleStatistics_20160714.tsv
ISAR_GISTIC.all_data_by_genes.txt.gz
TCGA-RPPA-pancan-clean.txt
mutation-load_updated.txt
gdc客户端命令行工具 安装及使用
本来你应该是去 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件的,但是这个2018年4月Immunity杂志上发表的文章The Immune Landscape of Cancer已经给出了mainfest 文件:https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt
首先下载和安装gdc客户端命令行工具
很有趣是居然区分了python版本 :
Latest Version of Data Transfer Tool (Python 3)
Legacy Versions of The Data Transfer Tool (Python 2.7)
- gdc-client_v1.4.0_OSX_x64_10.12.6.zip
- gdc-client_v1.4.0_Windows_x64.zip
- gdc-client_v1.4.0_Ubuntu_x64.zip
这种软件解压即可使用,所以没什么好纠结的, 代码如下:
# https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
which python
mkdir -p ~/biosoft/gdc_client
cd ~/biosoft/gdc_client/
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.5.0_Ubuntu_x64.zip
unzip gdc-client_v1.5.0_Ubuntu_x64.zip
./gdc-client --help
./gdc-client download --help
使用gdc客户端工具下载PanCan-panimmune_Open_GDC-Manifest_1.txt 里面的文件
cd ~/biosoft/gdc_client/
mkdir PanCan-panimmune
cd PanCan-panimmune
wget https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt
nohup ../gdc-client download -m PanCan-panimmune_Open_GDC-Manifest_1.txt &
因为文件内容还是蛮多的,所以会耗费一些时间,可以看到甲基化的确是最耗费空间的。
那么这些数据拿到手上后该进行哪些分析呢?必须看我们的TCGA系列视频课程啊!
TCGA数据库其它系列教程
关于TCGA数据下载,我挑选了部分,写了6个数据下载系列教程:
- TCGA的28篇教程- 使用R语言的cgdsr包获取TCGA数据(cBioPortal)
- TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
- TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据(FireBrowse portal)
- TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)
- TCGA的28篇教程-数据下载就到此为止吧
- TCGA的28篇教程-整理GDC下载的xml格式的临床资料
但是,建议你选择UCSC的xena数据库下载方式。如果你看视频,并不需要全盘接受,把握住重点。
也写了部分常见的TCGA数据库用法:
- TCGA的28篇教程-免疫全景图
- TCGA的28篇教程-指定癌症查看感兴趣基因的表达量
- TCGA的28篇教程-对TCGA数据库的任意癌症中任意基因做生存分析
- TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
- TCGA的28篇教程-数据挖掘三板斧之ceRNA
- TCGA的28篇教程-所有癌症的突变全景图
- TCGA的28篇教程-早期泛癌研究
- TCGA的28篇教程-CNV全攻略
- TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手
但是个人力量总归是有限的,我们生信技能树团队优秀R语言讲师《小洁》也学完了我的全套视频,在她自己的理解的基础上面,也给大家奉献了一套笔记: TCGA肿瘤数据库分析指南知识库马上面世
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
- 全国巡讲全球听(买一得五) ,你的生物信息学入门课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路