不能理解homer软件居然有错误

实在是不能理解这么出名的软件居然会有如此明显的错误，让我感到很伤心，homer听过的人都知道它是用来做peaks注释的，其实本质上就是把自己找到的genomic region注释到一致的genomic region(intron,exon,promoter,tss,tts,utr)上面。

这种注释必然是批量的，大部分情况的注释也绝对是正确的，不然这个错误怎么会现在才被我发现呢

peak14938 chr7 148800534 148800697 + 6.44164 NA 3' UTR (NM_003592, exon 22 of 22) 3' UTR (NM_003592, exon 22 of 22) 82894 NM_001203249 2146Hs.444082 NM_004456 ENSG00000106462 EZH2

可以看到，它把这个chr7 148800534 148800697区域注释到了3' UTR (NM_003592, exon 22 of 22)这个没有错，但是悲催的是后面它给映射到了EZH2基因

我不明白它是如何犯下这个严重的错误的：

很明显，EZH2基因的refseq ID里面并没有NM_003592，NM_003592这个ID是属于CUL1基因的。

我总不能去看源码，找找它的错误出在哪里吧！

但是有了这个错误，这个前车之鉴，我如何能相信它其它的结果呢？

后来我仔细看了它的readme，发现不是它错了，而是我理解错了：http://homer.ucsd.edu/homer/ngs/annotation.html

它注释的列如下：

Peak ID
Chromosome
Peak start position
Peak end position
Strand
Peak Score
FDR/Peak Focus Ratio/Region Size
Annotation (i.e. Exon, Intron, ...)
Detailed Annotation (Exon, Intron etc. + CpG Islands, repeats, etc.)
Distance to nearest RefSeq TSS
Nearest TSS: Native ID of annotation file
Nearest TSS: Entrez Gene ID
Nearest TSS: Unigene ID
Nearest TSS: RefSeq ID
Nearest TSS: Ensembl ID
Nearest TSS: Gene Symbol
Nearest TSS: Gene Aliases
Nearest TSS: Gene description
Additional columns depend on options selected when running the program.

其中annotation那一列，并非一定要与Nearest TSS:的基因一致！！！！

因为有些基因的是尾巴接着尾巴，这样即使某个region的确定位在A基因的尾巴上面，但是它距离A基因的TSS要比B基因的TSS远！！！

所以就出现了基因不一致的情况。

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

不能理解homer软件居然有错误

2026年7月
一	二	三	四	五	六	日
« 九
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31