免疫相关基因数量到底是多少个

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可
但是关于这一点,就有很多粉丝问我,为什么看了很多文献,大家的免疫相关基因集的数量都不一样,希望我给出一个可靠的数据源!

随便列举几个免疫基因集数据挖掘文献:

你可以迅速解读一波,因为都大同小异,仅仅是癌症不一样,图表没啥子区别。差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了:

免疫基因集数据库

其实可以看到,大多就是来源于 ImmPort( The Immunology Database and Analysis Portal)数据库的:

  • A predictive immune-related signature was constructed by concentrating on immune-related genes (IRGs) obtained from the Immunology Database and Analysis Portal (ImmPort) (https://immport.niaid.nih.gov).
  • A comprehensive list of IRGs was downloaded from the Immunology Database and Analysis Portal (ImmPort) database2. The list comprised a total of 2,498 IRGs, covering 17 immune categories (Bhattacharya et al., 2014).

如果你是初出茅庐,就选择它好了,反正数据库都提供了列表:https://www.immport.org/shared/genelists​

或者你去KEGG和GO等数据库人工筛选免疫相关基因集,然后去冗余也行,再或者其它数据库,比如:

  • Immunogenetic Related Information Source
  • Immunome Database
  • InnateDB: Systems Biology of the Innate Immune Response

何止是免疫

我一直觉得,这样的挑选其实是引入了人工偏差,但是这样的策略文章却屡见不鲜。比如几年前我总结的TCGA泛癌研究策略,其中一类就都是集中于某生物学功能基因集:

这个完全是取决于大家的生物学背景啦,很多人的课题组,实验室祖传就是研究某个通路,某个基因的,那么你就有先天优势。

文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160
如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:

如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你

Comments are closed.