4个基因如何做go和kegg数据库注释

看到公众号后台有人这样提问：4个基因如何做go和kegg数据库注释！

我觉得这样的问题蛮好玩，说明初学者很容易被各种各样的高大上的数据分析项目给误导，以为go和kegg数据库注释是什么了不得的高级分析，或者说不知道为什么要做，也不知道它可以解决什么问题，仅仅是想搞一下高大上的图表而已。

其实4个基因，真正应该做的是，一个个搜索学习它，把基因的功能融会贯通，而不是各式各样的花式数据分析和可视化技巧。就4个基因，背诵它的功能也不是什么难事！

不过，言归正传，既然大家问了，我们还是代码简单演示一下，不然显得我们不专业了。首先，我们假设这4个基因是 ‘TP53’,’BRCA1’,’KRAS’,’NRAS’ ，大家也可以修改为自己感兴趣的基因。代码如下所示：

 library(ggplot2)
 library(clusterProfiler)
 your_genes=c('TP53','BRCA1','KRAS','NRAS');your_genes
 your_genes = bitr(your_genes,'SYMBOL','ENTREZID','org.Hs.eg.db')[,2];your_genes
 your_kk <- enrichKEGG(gene = your_genes,
 organism = 'hsa',
 pvalueCutoff = 0.9,
 qvalueCutoff =0.9)
 head(your_kk)[,1:6]
 dotplot(your_kk)
 kk=DOSE::setReadable(your_kk, OrgDb='org.Hs.eg.db',keyType='ENTREZID')

tmp = kk@result
 write.csv( tmp ,paste0(pro,'_kk.csv'))

确实是可以出结果：

kegg富集分析结果

其实你可以看到，我们选择的这4个基因是 ‘TP53’,’BRCA1’,’KRAS’,’NRAS’ ，就是肿瘤相关的，所以它的kegg注释结果肯定是肿瘤通路无疑，这样的注释都并不需要你做一下kegg的，但凡是你背诵了这些基因的功能，少于10个基因其实人工整理更可靠。

一	二	三	四	五	六	日
« 九
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

4个基因如何做go和kegg数据库注释