4个基因如何做go和kegg数据库注释

看到公众号后台有人这样提问:4个基因如何做go和kegg数据库注释!

我觉得这样的问题蛮好玩,说明初学者很容易被各种各样的高大上的数据分析项目给误导,以为go和kegg数据库注释是什么了不得的高级分析,或者说不知道为什么要做,也不知道它可以解决什么问题,仅仅是想搞一下高大上的图表而已。

其实4个基因,真正应该做的是,一个个搜索学习它,把基因的功能融会贯通,而不是各式各样的花式数据分析和可视化技巧。就4个基因,背诵它的功能也不是什么难事!

不过,言归正传,既然大家问了,我们还是代码简单演示一下,不然显得我们不专业了。首先,我们假设这4个基因是 ‘TP53’,’BRCA1’,’KRAS’,’NRAS’ ,大家也可以修改为自己感兴趣的基因。代码如下所示:

 library(ggplot2)
 library(clusterProfiler)
 your_genes=c('TP53','BRCA1','KRAS','NRAS');your_genes
 your_genes = bitr(your_genes,'SYMBOL','ENTREZID','org.Hs.eg.db')[,2];your_genes
 your_kk <- enrichKEGG(gene = your_genes,
 organism = 'hsa',
 pvalueCutoff = 0.9,
 qvalueCutoff =0.9)
 head(your_kk)[,1:6]
 dotplot(your_kk)
 kk=DOSE::setReadable(your_kk, OrgDb='org.Hs.eg.db',keyType='ENTREZID')

tmp = kk@result
 write.csv( tmp ,paste0(pro,'_kk.csv'))

确实是可以出结果:

kegg富集分析结果

其实你可以看到,我们选择的这4个基因是 ‘TP53’,’BRCA1’,’KRAS’,’NRAS’ ,就是肿瘤相关的,所以它的kegg注释结果肯定是肿瘤通路无疑,这样的注释都并不需要你做一下kegg的,但凡是你背诵了这些基因的功能,少于10个基因其实人工整理更可靠。

 

Comments are closed.