提到公共数据库挖掘,通常是GEO里面的表达芯片数据,这些年随着NGS的爆发,转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势,当然了,TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊,在GEO和TCGA都找不到合适的数据集,其实还有另外一个选项:ArrayExpress
之所以想到要专门写教程来宣传ArrayExpress,是因为最近有粉丝发邮件问我一个wgcna问题,我发现他举例的文章是:Identification of hub genes and pathways associated with bladder cancer based on co-expression network analysis,非常老套的分析策略了,发表在Oncol Lett. 2017 Jul, 而且膀胱癌是TCGA里面有的,所以我下意识以为是TCGA数据挖掘,结果进去看了看数据集下载自ArrayExpress,使用了两个数据集:
- The dataset E-MTAB-1940 included 4 controls (samples from normal bladders) and 82 cases (samples from BC tissue);
- the dataset E-GEOD-3167 included 14 controls and 46 cases.
因为都是affymetrix的芯片,所以直接对其CEL原始芯片文件进行处理,然后:
- Subsequently, the data were screened by the feature filter method of the genefilter package.
- Each probe was mapped to one gene using getSYMBOL, whoch is is a function in package annotate of the genefilter package and the probe was discarded if it did not match any genes.
- The two expression datasets were merged and synthetically analyzed using Batch Mean-centering, a merged data method (19), following adaptation according to Support Vector Machines, through the inSilicoMerging package (20).
在 8. ArrayExpress数据库的基因芯⽚原始数据处理,3D主成分图及聚类热 图 这个学徒作业,我们其实分享过ArrayExpress数据库,而且里面很清楚的讲解了 oligo::read.celfiles 可以处理affymetrix的CEL原始芯片文件,非常简单。
拿到表达矩阵后的差异分析,火山图,热图等等标准流程,基本上读一下我几年前在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
当然了,如果是多个数据集整合,其实是已知一个批次效应,可以很容易的去除掉哈!或者另外一个思路,先差异分析后整合:多个数据集整合神器-RobustRankAggreg包
如果是前面粉丝咨询的wgcna,就需要看我在生信技能树多次写教程分享WGCNA的实战细节,见:
- 一文看懂WGCNA 分析(2019更新版) (点击阅读原文即可拿到测序数据)
- 通过WGCNA作者的测试数据来学习
- 重复一篇WGCNA分析的文章(代码版)
- 重复一篇WGCNA分析的文章(解读版)(逆向收费读文献2019-19)
- 关键问题答疑:WGCNA的输入矩阵到底是什么格式
数据挖掘的核心是缩小目标基因
各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。