我博客里面有详细讲读原文查解去除PCR duplication的reads的原理和方法,还比较了samtools和picard这两个软件的区别,请点击阅看(仔细探究samtools的rmdup是如何行使去除PCR重复reads功能的),或者复制链接(http://www.bio-info-trainee.com/2003.html)到浏览器查看。
去除PCR duplication的reads用samtools或者picard均可,对单端测序数据来说,去除掉比对到同一个基因组坐标的reads即可,当然要保证比对的flag是一致的。但是单端测序比对flag情况只有0,4,16,flag很容易一致。然而对于双端测序来说,去除PCR重复不仅仅需要它们比对到的染色体起始终止位置相同,更重要的是flag的一致。在双端测序里面存在着一大堆的flag情况,如果flag不一致,比对到基因组同一坐标也不会认为是PCR的duplication。还有要考虑插入片段的大小,就是第9列,如果第9列不一致,这个双端测序也不会被当做PCR duplication而去除。
很明显,公司给我的bam文件里面并没有去除pcr duplicate,比如下面:
这3条reads虽然都比对到了1号染色体的第13145个碱基的位置,但是尾号为63261的reads跟另外两个的flag不一致,所以它被保留下来,而另外两条reads虽然flag一致,但是第九列插入片段不一致,也不会被当做duplication被去除。
下面这种情况才是需要去除的PCR duplication,而且它们的flag是1017,代表它们的另一端read并没有成功比对。
(请务必反复看这个示意图,并且自己找bam文件来理解我说的这段话)
而且他们给我的报告里面提到过有15%的duplication情况,我用Qualimap软件可视化如下:
可以看到大部分情况是duplicate一次,很少有多次重复的。
那么为什么要去除这个duplication呢?主要是因为在call snp的时候,如果某个变异位点的变异碱基都是来自于PCR重复,而我们却认为它深度足够判断是真的变异位点,这个结论其实有很大可能是假阳性。
请扫描以下二维码关注我们,获取直播系列的所有帖子!