新的比对工具MOSAIK

功能:序列比对,类似于BWA,Bowtie
优点:全平台,甚至支持pacbio的三代测序长reads
算法:是hash index,跟其它bwt算法不太一样
作者:WP Lee - ‎2014 - ‎被引用次数:70 - ‎相关文章

Overview:

MOSAIK is a stable, sensitive and open-source program for mapping second and 
third-generation sequencing reads to a reference genome. Uniquely among current 
mapping tools, MOSAIK can align reads generated by all the major sequencing 
technologies, including Illumina, Applied Biosystems SOLiD, Roche 454, 
Ion Torrent and Pacific BioSciences SMRT.

一,软件安装

下载压缩包,解压后进入src源码目录,然后make即可!
1
这些程序就可以用啦!
里面有四个软件,所以需要四个步骤来完成比对!
build和jump是对参考基因组建立索引
build同时需要对测序数据进行索引
aligner是把两个索引进行比对!
text是把比对的结果转为其它可读格式,通常是sam比对格式

二,输入数据准备

比对当然需要测序的fastq格式reads和fa格式的参考基因组啦!
2
我是下载的http://odin.mdacc.tmc.edu/~xsu1/VirusSeq.html  里面的数据,因为之所以要用这个软件,也是因为找人体内病毒整合的需求!
PE测序的reads,参考基因组是病毒和人类

三,运行命令

下面是一个完整的脚本
首先对参考基因组构建索引
Mosaik_bin=~/bio-soft/MOSAIK/bin  #设置好程序安装目录
##for gib virus reference genome
$Mosaik_bin/MosaikBuild -fr gibVirus.fa -oa gibVirus.fa.bin -st illumina -assignQual 40
$Mosaik_bin/MosaikJump -ia gibVirus.fa.bin -out gibVirus.JumpDb -hs 15
这两个步骤是构建hash索引,对这个60M的压缩包病毒基因组集合,时间是
MosaikBuild CPU time: 15.660 s, wall time: 18.146 s
MosaikJump CPU time: 329.031 s, wall time: 331.672 s
还可以接受,但是输出的index文件就有点难以接受了!!!!
333M Mar 11 19:55 gibVirus.fa.bin
60M Aug 13  2013 gibVirus.fa.gz
5.0G Mar 11 20:04 gibVirus.JumpDb_keys.jmp
1 Mar 11 19:59 gibVirus.JumpDb_meta.jmp
1.3G Mar 11 20:04 gibVirus.JumpDb_positions.jmp
如果是对人的hg19基因组来说,消耗的时间如下:
MosaikBuild CPU time: 183.642 s, wall time: 184.658 s
MosaikJump CPU time: 3985.608 s, wall time: 3995.323 s
一个多小时,还行!

对参考基因组建好了索引,还需要对测序数据构建索引!

$Mosaik_bin/MosaikBuild  -q L526401A_1.fq.gz -q2 L526401A_2.fq.gz -out L526401A.bin -st illumina
数据双端测序,每个1.6G左右数据,构建索引耗时如下:
# reads written:          53060622
# bases written:        5304891143
MosaikBuild CPU time: 388.969 s, wall time: 391.149 s

接下来就比对!

ANN_PATH=~/bio-soft/MOSAIK/src/networkFile
$Mosaik_bin/MosaikAligner -in L526401A.bin  \
-out L526401A.bin.aligned \
-ia ../Mosaik_JumpDb/hg19Virus.fa.bin \
-j ../Mosaik_JumpDb/hg19Virus.JumpDb \
-annpe $ANN_PATH/2.1.26.pe.100.0065.ann -annse $ANN_PATH/2.1.26.se.100.005.ann

比对的结果就是那个L526401A.bin.aligned,但是还需要用MosaikText转换成sam格式方便阅读!

$Mosaik_bin/MosaikText -in L526401A.bin.aligned  -sam L526401A.bin.aligned.sam -u
其实它github里面有测试数据,你跑一遍就懂了!

四,数据结果解读

都是sam格式了就不比解释了

Comments are closed.