大家学习到的通常是两个组的样本进行差异分析,然后走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:
- 第一讲:GEO,表达芯片与R
- 第二讲:从GEO下载数据得到表达量矩阵
- 第三讲:对表达量矩阵用GSEA软件做分析
- 第四讲:根据分组信息做差异分析
- 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
- 第六讲:指定基因分组boxplot指定基因list画热图
- 第七讲:根据差异基因list获取string数据库的PPI网络数据
- 第八讲:PPI网络数据用R或者cytoscape画网络图
- 第九讲:网络图的子网络获取
- 第十讲:hug genes如何找
但真实情况下,通常是有多个分组,这个时候就会有多种策略可供选择了。
比如拿某一组的样本与剩余其它组所有样本进行比较,这样的差异分析策略还是蛮流行的!我前面在生信技能树也写过教程:如果你的分组比较多,差异分析策略有哪些?
最近看到一篇文献 Nucleic Acids Res. 2013 Nov,题目是Identifying subgroup markers in heterogeneous populations 也提到了这个情况;
Instead, a subgroup of samples in one group shows differential behavior with respect to all other samples.
所以他们提出来了 Detection of Imbalanced Differential Signal (DIDS) 算法:
细读表达芯片的公共数据库挖掘系列推文 ;