【直播】我的基因组(16):提取左右端测序数据比对到不同染色体的PE reads

这类情况仅仅针对于双端测序数据,因为根据实验原理来看,对一个DNA片段,会把它的左右两端分别测序,但是测序仪器的测序长度有限,对本次实验来说,打断的DNA片段长度在350个碱基左右(这个长度只是一个分布,并不是真实值),理论来说测序是左右各150,加起来也就300,也就是说DNA片段中间还有50个碱基是测不到的(当然,实际上是有可能测通的)。而对这个配对的reads来说,来自于同一个DNA片段,所以理论上它们应该比对到同一条染色体的。也还是基于对sam格式的文件的理解,前面我们提到了sam文件的第3,7列指明了该reads比对到哪条染色体,以及该reads的配对reads比对到了哪条染色体(如果比对到同一条染色体,那么第7列是=符号)。所以我们只需要写脚本来提取即可!

而左右端测序数据比对到不同染色体的情况,比较有意义,可能是融合基因,也可能是基因之间本来就相似性很大。

在sam文件里面左右端测序数据比对到不同染色体情况如下所示:

提取的脚本很简单是:samtools view P_jmzeng.final.bam|perl -alne '{print if $F[6] ne "="}'  >unpaired.sam  可以看到这样的情况还是挺多的,14G的sam文件,当然,里面有非常多的是没有比对上的,下面的统计可以看出。

可以用命令 cut -f 3,7 unpaired.sam |sort |uniq -c 简单统计一下

先提取出来,我们后面再讲如何应用这个数据。

三种具有代表性的肿瘤融合基因BCR-ABL、SLC45A3-ELK4 和. PAX3-FOXO1

融合基因(英语:Fusion gene)是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。 其有可能是染色体易位、中间缺失或染色体倒置所致的结果。

请扫描以下二维码关注我们,获取直播系列的所有帖子!

菜鸟团公众号二维码

菜鸟团公众号二维码

Comments are closed.