把基因数量搞小的数据挖掘想法是好的但可能不现实

 

我一直强调:数据挖掘的核心是缩小目标基因!

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。

其实还有另外一个策略方向,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。最近比较热门的有:自噬基因,铁死亡,EMT基因,核受体基因家族,代谢基因。还有一个最搞笑的是m6a基因的策略,完全是无厘头的基因集搞小,纯粹是为了搞小而搞小。

虽然说数据挖掘的核心就是把基因集的数量搞小,但是实际上大家都只是在自己的数据集上面自圆其说而已。最近听一个演讲,就提到了在乳腺癌领域的已经发表的33个基因集,他们的overlap其实非常少,如下所示:

不同的基因集overlap很差

绝大部分的基因仅仅是单一的基因集里面出现,不具备可重复性。出现两次及以上的也仅仅是10%的基因,出现在8个以上的基因集里面的基因就只剩下1个了,就是MKI67代表细胞增殖功能的,更别说是出现在33个基因集里面的。

但是,如果考虑这些基因所 代表的GO数据库功能条目,重复性就好了一点,至少出现2次的基因提高到了20%。

然后研究者单独拿出来了乳腺癌领域久经考验的70个基因 的基因集,发现如果是随机选择70个基因,随机1万次,也有接近30%的可能性拿到比这个久经考验的70个基因 的基因集表现要好的情况。

image-20201013082437539

为什么会出现这样的情况呢?

其实如果你拿到任何一个带有临床生存信息表达矩阵,都可以拿到很多有统计学意义的生存相关基因,这些基因都可以找到共表达基因,它们本来就相互连接起来了。

学徒作业

就拿TCGA数据库的乳腺癌的RNA-seq矩阵,从ucsc的xena浏览器下载,1000个左右的肿瘤病人数据里面的全部的基因做wgcna后看看分成多少个模块。

然后看看统计学显著的2000多个生存相关基因再次wgcna分成多少个模块。

然后看看两个模块根据各自的数据库功能能不能对应起来。

历年学徒作业目录如下:

 

Comments are closed.