TCGA数据库里面配对取样的肿瘤转录组数据并不多

我看到了一个研究可能对大家有帮助，《Transcriptional response profiles of paired tumor-normal samples offer novel perspectives in pan-cancer analysis》，

发表这个研究的杂志不怎么样， Oncotarget. 2017; 8:41334-41347. https://doi.org/10.18632/oncotarget.17295 但是里面有一个信息蛮有意思的，而且毕竟是比较早期的数据挖掘了，不同于现在的粗制滥造各种灌水套路，起码他们是实打实的做了不少原创性工作了的！

如下所示，这个数据挖掘研究纳入了TCGA数据库里面的样本量还算比较多的癌症种类，而且挑选那些提供了配对样品的：

bladder urothelial carcinoma (BLCA, n = 19),
breast cancer (BRCA, n = 111),
colon adenocarcinoma (COAD, n = 41),
head and neck squamous cell carcinoma (HNSC, n = 41),
kidney chromophobe renal cell carcinoma (KICH, n = 25),
kidney clear cell renal cell carcinoma (KIRC, n = 72),
kidney renal papillary cell carcinoma (KIRP, n = 32),
liver hepatocellular carcinoma (LIHC, n = 50),
lung adenocarcinoma (LUAD, n = 57),
lung squamous cell carcinoma (LUSC, n = 51),
prostate adenocarcinoma (PRAD, n = 52),
thyroid carcinoma (THCA, n = 59),
and uterine corpus endometrial carcinoma (UCEC, n = 23)

可以看到，绝大部分癌症的配对样品都不多哦!

亚型之间差异分析然后聚类

首先对每个癌症的这些样品做 paired tumor and normal samples. 的差异分析，然后挑选 Genes with log2(fold-change) ≥ 2 in at least 10% of all samples were retained for subsequent analysis. 差异分析相信大家都不陌生了，基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可；

经过一系列的差异分析后，挑选合适的基因，以较小的表达量矩阵进入后续的Consensus clustering result at k = 10 分析，如下所示的降维聚类分群结果，是不是跟单细胞数据分析有点类似？

首先是挑选基因，然后是降维聚类分群，然后看不同群里面的不同癌症领域是否聚在一起或者泾渭分明！

可以看到HNSC被拆分到了C1和C4两个独立的亚群，这个也是作者最重要的结论！其实没有太大的意思，头颈癌里面本来就是不同癌症的混合体，包括口腔癌，鼻咽癌，喉癌等等。

亚群之间差异分析

这个时候的差异分析，不再是各个肿瘤内部的N-T配对差异分析啦，是针对10个亚群，每个都是继续看其相当于其它9个亚群的差异上下调基因，同样的阈值筛选。如下所示交集：

这个步骤，在单细胞数据分析里面超级常见，其实就是每个亚群找标记基因的策略。

针对HNSC

前面提到了HNSC被拆分到了C1和C4两个独立的亚群：

HNSC Subtype 1 (17 samples in C1) and HNSC Subtype 2 (23 samples in C4).

所以就可以进行细分亚群的差异分析啦！

看完这个，你对单细胞数据分析是否有了基础认识了？如果你对单细胞数据分析还没有基础认知，可以看基础10讲：

一	二	三	四	五	六	日
« 九
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

TCGA数据库里面配对取样的肿瘤转录组数据并不多

亚型之间差异分析然后聚类

亚群之间差异分析

针对HNSC