肿瘤领域的数据挖掘文章真的是“烂大街”了,一个比较成熟的分析策略很容易迁移到TCGA数据库的全部其它各种癌症研究领域。哪怕是再稀有的肿瘤,甚至肿瘤的某个稀有亚型,都是做了几十篇文章,大家可以使用一些关键词组合很容易搜索到它们。
有意思的是,很多粉丝居然提问,如果自己的研究领域并不是肿瘤,那么数据挖掘课题该怎么样做呢?
这个时候我其实想替大多数粉丝对他表示实名羡慕,因为肿瘤学领域“科研玩家”众多,其实你看了再多教程,学习了再多策略,等真的是要自己开启一个数据挖掘课题的时候,就会发现,真的是自己会的东西都被别人抢先一步了!因为大家耳熟能详的策略就那么点:
- 差异分析+PPI网络+hub基因
- WGCNA+hub基因
- 诊断模型构建
- 预后模型构建
- 肿瘤免疫,CIBERSOFT计算的LM22比例分组,以及ESTIMATE算法等等
- m6A等生物学功能基因集
- 药敏信息
(mRNA,lncRNA,miRNA,甲基化,蛋白)均可走上述流程,也就是说33种癌症乘以5种亚型,乘以5种分子,乘以15个策略就已经是过万篇数据挖掘课题了,而且你仔细搜索一下就发现,真的是已经有了过万篇数据挖掘文章了哦!
但是,如果你研究领域并不是TCGA的33种癌症,其实你已经甩掉7成的竞争者:
- ACC, adrenocortical carcinoma肾上腺皮质癌;
- BLCA, bladder urothelial carcinoma 膀胱上皮癌;
- BRCA, breast invasive carcinoma乳腺浸润性癌;
- CESC, cervical squamous cell carcinoma宫颈鳞癌;
- CHOL, cholangio carcinoma胆管癌;
- COAD, colon adenocarcinoma结肠癌;
- ESCA, esophageal carcinoma食道癌;
- GBM, glioblastoma multiforme胶质母细胞瘤;
- HNSC, head and neck squamous cell carcinoma头颈部鳞状细胞癌;
- KIRC, kidney renal clear cell carcinoma肾透明细胞癌;
- KIRP, kidney renal papillary cell carcinoma肾乳头状细胞癌;
- LGG, low grade glioma低级别胶质瘤;
- LIHC, liver hepatocellular carcinoma肝癌;
- LUAD, lung adenocarcinoma肺腺癌;
- LUSC, lung squamous cell carcinoma肺鳞状细胞癌;
- MESO, mesothelioma间皮细胞瘤;
- PCPG, pheochromocytoma and paraganglioma嗜铬细胞瘤和副神经节瘤;
- PRAD, prostate adenocarcinoma前列腺癌;
- SKCM, skin cutaneous melanoma皮肤黑色素瘤;
- STAD, stomach adenocarcinoma胃腺癌;
- TGCT, testicular germ cell tumors睾丸肿瘤;
- THCA, thyroid carcinoma; 甲状腺癌
- UCEC, uterine corpus endometrial carcinoma子宫内膜癌.
比如发表在 Int J Mol Med. 2020 Feb. 的文章:Weighted gene co-expression network analysis to identify key modules and hub genes associated with atrial fibrillation,就是关于心房纤维性颤动的。他们挖掘的公共数据集:AF dataset GSE79768 ,这个数据集本身发表在 Int J Cardiol 2016 Nov,就26个样本的Affymetrix Human Genome U133 Plus 2.0 Array芯片数据而已。
走的就WGCNA,差异分析,以及hub基因的流程。其中差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
数据挖掘的核心是缩小目标基因
各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。
不管是哪个策略,落脚点都是如此。