Lecture6_practice-project08_shiny-enrichment

Jimmyjmzeng1314@outlook.com

Keywords: enrichment/shiny/GO/KEGG/pathway

富集分析就是对一串感兴趣的基因在一个已知的pathway集合信息里面做统计检验,看看是否富集了。

我们一般的pathway信息是GOKEGG,统计检验通常是超几何分布检验。

GOgene ontology)数据库,收集的是对各种物种基因功能进行限定和描述的标准词汇(term),是国际标准化的基因功能描述分类系统。根据基因产物的相关生物学过程( biological_process)、细胞组分(cellular_component)以及分子功能(molecular_function)三个大类分别给予定义,而每一大类下又包含更多层级具体term,这些定义与具体物种无关。

KEGGKyoto Encyclopedia of Genes and Genomes)是一个综合数据库,整合了基因组信息、化学信息和生化系统功能信息,目前包含了16个子数据库。比如,KEGG PATHWAY数据库包含了图解的细胞代谢、膜转运、信号传导等通路信息; KEGG GENES数据库、KEGG GENOME数据库则包含了部分或者完整序列的基因/基因组信息;KEGG OrthologyKO)是KEGG直系同源数据库,将各个KEGG注释系统联系在一起,将分子网络和基因组信息联系起来,根据直系同源关系,实现跨物种的基因组或转录组的功能注释。

我写这个程序,很简单,首先做出以下一些R里面的list对象,然后读取任意一个感兴趣genelist,对每个pathway都做一个超几何分布检验,输出统计检验结果即可!

可以看到我们的数据其实是需要更新的,kegg通路竟然只有229个,其实现在都快三百个了。

我没有做任何UI界面美化,只是实现了功能,用户只需要上传一个gene list文件即可,其余全部自动化完成。

useful links :