不能理解homer软件居然有错误

实在是不能理解这么出名的软件居然会有如此明显的错误,让我感到很伤心,homer听过的人都知道它是用来做peaks注释的,其实本质上就是把自己找到的genomic region注释到一致的genomic region(intron,exon,promoter,tss,tts,utr)上面。

这种注释必然是批量的,大部分情况的注释也绝对是正确的,不然这个错误怎么会现在才被我发现呢
peak14938 chr7 148800534 148800697 + 6.44164 NA 3' UTR (NM_003592, exon 22 of 22) 3' UTR (NM_003592, exon 22 of 22) 82894 NM_001203249 2146Hs.444082 NM_004456 ENSG00000106462 EZH2
可以看到,它把这个chr7 148800534 148800697区域注释到了3' UTR (NM_003592, exon 22 of 22)这个没有错,但是悲催的是后面它给映射到了EZH2基因
1
我不明白它是如何犯下这个严重的错误的:
2
很明显,EZH2基因的refseq ID里面并没有NM_003592,NM_003592这个ID是属于CUL1基因的。
我总不能去看源码,找找它的错误出在哪里吧!
但是有了这个错误,这个前车之鉴,我如何能相信它其它的结果呢?
后来我仔细看了它的readme,发现不是它错了,而是我理解错了:http://homer.ucsd.edu/homer/ngs/annotation.html
它注释的列如下:
  1. Peak ID
  2. Chromosome
  3. Peak start position
  4. Peak end position
  5. Strand
  6. Peak Score
  7. FDR/Peak Focus Ratio/Region Size
  8. Annotation (i.e. Exon, Intron, ...)
  9. Detailed Annotation (Exon, Intron etc. + CpG Islands, repeats, etc.)
  10. Distance to nearest RefSeq TSS
  11. Nearest TSS: Native ID of annotation file
  12. Nearest TSS: Entrez Gene ID
  13. Nearest TSS: Unigene ID
  14. Nearest TSS: RefSeq ID
  15. Nearest TSS: Ensembl ID
  16. Nearest TSS: Gene Symbol
  17. Nearest TSS: Gene Aliases
  18. Nearest TSS: Gene description
  19. Additional columns depend on options selected when running the program.
其中annotation那一列,并非一定要与Nearest TSS:的基因一致!!!!
因为有些基因的是尾巴接着尾巴,这样即使某个region的确定位在A基因的尾巴上面,但是它距离A基因的TSS要比B基因的TSS远!!!
所以就出现了基因不一致的情况。

Comments are closed.