大型基因组拼装的乐高软件之MaSuRCA assembler使用指南

本文转载自 生信技能树 论坛特约作者MintMaSuRCA assembler 软件指导书,非常符合我博客的风格,也正式开启了我博客的转载之路。(前面的近400篇文章都是本人原创,手打,但是精力有限,以后文章更新频率会大大降低,但是会引入不少 技能树论坛特约作者的 好文!)

有了三代测序技术的火爆,各种利用PacBio 长reads来做大型基因组的de novo 组装和改进的软件纷纷上架。其中有用于长Reads的,比如Falcon, 是PacBio自家的二倍体分层基因组组装工具;长短reads混双的,比如pacBioToCA;还有填补gap的PBJelly. 给了这么多个支点,是不是感觉可以轻松撬动地球上任何物种基因组了。呵呵呵,等您亲自下手去拼装了,就会发现,测序深度,特定读长的reads数目,服务器的能力等等,都会提醒你现实的骨感和梦想的丰满。请各位搬好板凳备好瓜,听我来扒一扒最近用MaSuRCA这个混双基因组乐高软件拼装基因组的那些事儿。

MaSuRCA是马里兰大学写的大型基因组组装软件,官方预告说Sanger, 454, Pacbio and Nanopore等长reads都可以和illumina短reads掺着用,听起来感觉棒棒哒。到底好不好用,先来扒一扒原理。

首先,用错误率低的illumina短reads来搭建较长的super-reads, 组成一个15-mer的备用数据库;然后,以错误率高的PacBio 长reads作为模板,使用备用数据库中的super-reads进行比对,super-reads 连接并且延长,组成更长的pre-mega-reads,不连续的super-reads将会被丢弃;  最后,从pre-mega-reads中挑选出最终需要的mega-reads,用来组装基因组。听起来是不是比拼206块人骨容易多了?没听明白还在懵逼的科科们,快醒醒奥运会都结束了,赶紧去瞅瞅下图。

搞清楚了原理,下面进入实战,请各位玩家先投币:
1) 下载软件:http://www.genome.umd.edu/masurca.html 请根据系统选择版本MaSuRCA-X.X.X-Y.tar.gz
2) 装 ./install.sh 自读readme。伸手党玩家GAME OVER,请返回上级,继续投币。
3) 组装super-reads:
/install_path/bin/masurca-superreads\
/data/illumina_1.fq : /data/illumina_2.fq
切记!!请输入原始illumina数据。多原始?任何trim, clean,error correction都会恶化组装。 简言之,欲练此功,必须素颜全裸!否则走火入魔!原来这是三代测序界的玉女心经,就欣赏这种古墓派设置嘿嘿嘿~ 在此提醒各位,使用下载数据有风险,本人不止一次发现下载的数据是赝品,乍一看完美,想在里面挖到宝就呵呵了。一并在此墙裂呼吁学术诚信。本人此次100%纯手工自产数据,对你没看错这是赤果果的炫富~
4)组装:
mkdir test #自建目录
cd test
/install_path/bin/masurca -g config.txt
5)设置参数:在生成的config.txt中 :
DATA:
PE=pe 180 20 /FULL_PATH/frag_1.fastq /FULL_PATH/frag_2.fastq  # paired end reads,180是library insert average length ,20 是standard deviation,具体情况自行更改
JUMP=sh 3600 200 /FULL_PATH/short_1.fastq /FULL_PATH/short_2.fastq #其他illumina 数据,比如jumping,DiTag,mate pair 等
PACBIO=/FULL_PATH/pacbio.fa #PacBio长reads
OTHER=/FULL_PATH/file.frg #可以是454, Sanger 等长reads
END

PARAMETERS:
#必选参数
NUM_THREADS=16 #cores数目
JF_SIZE=2000000000 #设定为基因大小的10倍
#非必选参数
USE_LINKING_MATES=1 #若大于2X长reads, 此处设0.
GRAPH_KMER_SIZE=auto #最安全的设置
LIMIT_JUMP_COVERAGE=60 #最小的细菌设置,真核生物上限可设为300
CA_PARAMETERS= ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB  #细菌设定,其他物种改为0.15
SOAP_ASSEMBLY=0; #要是不想用SOAPdenovo2想用CABOG,改成1. 适合>5G的基因组
STOP_AFTER_SUPERREADS= 0 #装完SUPER-READS不停紧接着组装,设1 . 建议先看看super-reads coverage, N50 等参数,再挑出部分reads组装。
6) 使用参数生成运行程序: /install_path/bin/masurca config.txt
7) 运行程序:./ assemeble.sh
8)   坐等结果,同时排除各种可能中断运行的bugs。
9)   如果组装成功,/CA/产生 contig序列 “genome.ctg.fasta” 和scaffold序列“genome.scf.fasta ”

最后,有人想知道运行时间吗?
细菌基因组:16Gb RAM, 8+ cores, 10Gb,需要1小时;
昆虫基因组:128Gb RAM, 16+ cores, 1Tb,1-2天;
鸟类或者小植物基因组:256Gb RAM, 32+ cores, 1Tb ,4-5天;
哺乳动物基因组:512Gb RAM, 32+ cores, 3Tb ,15-20天;
植物基因组:1Tb RAM, 64+cores, 10Tb ,60-90天!

劳资要装的是植物基因组!!!鬼知道我都经历了什么!!顶着锅盖要了最大空间,半夜爬起来看服务器有没有崩溃,花了一周排除了几打bugs, 实际运行3天,终于完成了!感谢服务器管理员的神助攻么么哒。

我的MaSuRCA乐高大型基因组故事讲完了。
我是个很严肃的生信科学家。
以上。

 

Comments are closed.