TCGA教程足够多了,有学员不理解TCGA样本编号问题,所以一个简单的比喻来阐述一下。
准考证号
这个大家从小就接触过,这里以四六级准考证号码解析为例,四六级准考证号一共由15位组成(如下图)
提醒:这种方法仅供参考,可能会有误差。最好是找到当时跟自己一个考场的同学,问问他们的准考证号,再结合自己的信息进行推算,这样成功的机率比较大哦~
是不是瞬间就理解了?
再看看身份证号码
早期‘身份证号码’叫‘社会保障号’,为15位,1999年开始更名为公民身份证号码,即第二代身份证,为18位,且终身不变。
公民身份号码是特征组合码,由前十七位数字本体码和最后一位数字校验码组成。 排列顺序从左至右依次为六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。
最后看我们需要记忆的TCGA编码
接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的前15位(有时12位),实际从上图可以看出TCGA的barcode设计总共有28位之多。每一个短横杠衔接的都是含不同意义的序列,如下所示:
具体每一个字段介绍如下:
| Label | Identifier for | Value | Value Description | Possible Values |
| :————— | :—————————————————————————————- | :—— | :—————————————————————————- | :—————————————————————————————- |
| Analyte | Molecular type of analyte for analysis | D | The analyte is a DNA sample | See Code Tables Report |
| Plate | Order of plate in a sequence of 96-well plates | 182 | The 182nd plate | 4-digit alphanumeric value |
| Portion | Order of portion in a sequence of 100 - 120 mg sample portions | 1 | The first portion of the sample | 01-99 |
| Vial | Order of sample in a sequence of samples | C | The third vial | A to Z |
| Project | Project name | TCGA | TCGA project | TCGA |
| Sample | Sample type | 1 | A solid tumor | Tumor types range from 01 - 09, normal types from 10 - 19 and control samples from 20 - 29. See Code Tables Report for a complete list of sample codes |
| Center | Sequencing or characterization center that will receive the aliquot for analysis | 1 | The Broad Institute GCC | See Code Tables Report |
| Participant | Study participant | 1 | The first participant from MD Anderson for GBM study | Any alpha-numeric value |
| TSS | Tissue source site | 2 | GBM (brain tumor) sample from MD Anderson | See Code Tables Report |
参考:https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/
将barcode的组成从层次结构(树)来看,是这样的:
数据类型非常多
不同的数据之间需要关联,同一个病人有多种数据,甚至一种数据也有多个,比如转录组数据某病人就有癌症和癌旁,都需要用ID来进行关联和区分。
| 数据类型 | 说明 |
| :————— | :—————————————————————————————- |
| Clinical | 病人的基本信息,诊断情况、TNM分期、肿瘤病理、生存情况等等 |
| mRNA | 由mRNA芯片或RNA-seq测得的mRNA表达量数据 |
| microRNA | 由microRNA芯片或RNA-seq测得的microRNA表达量数据 |
| CopyNumber | 由SNP芯片测序得到的肿瘤对比正常组织染色体各片段的比值 |
| Mutation | 肿瘤测序数据相对于参考基因组序列得到的核苷酸变化,包括插入、缺失等 |
| Protein | 由蛋白质芯片测序得到的200多种癌症的相关蛋白的表达量。 |
| Methylation | 由甲基化芯片测序得到的DNA甲基化程度 |