看到公众号后台有人这样提问:4个基因如何做go和kegg数据库注释!
我觉得这样的问题蛮好玩,说明初学者很容易被各种各样的高大上的数据分析项目给误导,以为go和kegg数据库注释是什么了不得的高级分析,或者说不知道为什么要做,也不知道它可以解决什么问题,仅仅是想搞一下高大上的图表而已。
其实4个基因,真正应该做的是,一个个搜索学习它,把基因的功能融会贯通,而不是各式各样的花式数据分析和可视化技巧。就4个基因,背诵它的功能也不是什么难事!
不过,言归正传,既然大家问了,我们还是代码简单演示一下,不然显得我们不专业了。首先,我们假设这4个基因是 ‘TP53’,’BRCA1’,’KRAS’,’NRAS’ ,大家也可以修改为自己感兴趣的基因。代码如下所示:
library(ggplot2)
library(clusterProfiler)
your_genes=c('TP53','BRCA1','KRAS','NRAS');your_genes
your_genes = bitr(your_genes,'SYMBOL','ENTREZID','org.Hs.eg.db')[,2];your_genes
your_kk <- enrichKEGG(gene = your_genes,
organism = 'hsa',
pvalueCutoff = 0.9,
qvalueCutoff =0.9)
head(your_kk)[,1:6]
dotplot(your_kk)
kk=DOSE::setReadable(your_kk, OrgDb='org.Hs.eg.db',keyType='ENTREZID')
tmp = kk@result
write.csv( tmp ,paste0(pro,'_kk.csv'))
确实是可以出结果:
其实你可以看到,我们选择的这4个基因是 ‘TP53’,’BRCA1’,’KRAS’,’NRAS’ ,就是肿瘤相关的,所以它的kegg注释结果肯定是肿瘤通路无疑,这样的注释都并不需要你做一下kegg的,但凡是你背诵了这些基因的功能,少于10个基因其实人工整理更可靠。