用 SHRiMP 来比对color space的数据

无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据,就是传说中的solid格式,也就是color space的测序数据 ,虽然拿到的测序数据也是fastq格式的, 4行代表一条read,但是第二行已经不是在是碱基序列啦,而是color的编码。Colors may be encoded either as numbers (0=blue, 1=green, 2=orange, 3=red) or as characters A/C/G/T (A=blue, C=green, G=orange, T=red).我们通常称为csfastq格式。
对于这种数据的处理,一般的比对软件是hold 不住的,我查了一下,SHRiMP,sequel和BFAST ,bowtie,是可以处理这种csfastq格式数据的比对的, 我这里简单使用了最出名的SHRiMP 。

安装过程如下:
cd ~/biosoft
mkdir SHRiMP &&  cd SHRiMP
tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz
cd SHRiMP_2_2_3
export SHRIMP_FOLDER=$PWD
## 如果需要永久使用就添加到.bashrc,如果只是用一次,就export即可。
软件说明书详细介绍了该软件的用法:http://compbio.cs.toronto.edu/shrimp/README
如果你的参考基因组很小,那么直接使用就好了。
如果是普通的小基因组和小的color space测序序列
$SHRIMP_FOLDER/bin/gmapper-cs test.csfasta \
  reference.fa \
  -N 4 -o 5 -h 80% >map.test.out 2>map.test.log
具体参数意义,大家看软件说明书吧。
或者对于miRNA来说
##  We project the database with:
$SHRIMP_FOLDER/utils/project-db.py --seed 00111111001111111100,00111111110011111100,00111111111100111100,00111111111111001100,00111111111111110000 \
 --h-flag --shrimp-mode ls miRBase/hairpin.human.fa
##
$SHRIMP_FOLDER/bin/gmapper-ls -L  hairpin.human-ls SRR1542716.fastq  --qv-offset 33   \
-o 1 -H -E -a -1 -q -30 -g -30 --qv-offset 33 --strata -N 8  >map.out 2>map.log

如果你的参加基因太大,超过了你的内存限制,那么就需要技巧了。

代码也不难,如下:
$SHRIMP_FOLDER/utils/split-db.py --ram-size 14 --prefix hg18 hg18.fa
$SHRIMP_FOLDER/utils/project-db.py --shrimp-mode ls hg18-14gb-*.fa
 for i in 1 2 3 4; do \
      $SHRIMP_FOLDER/bin/gmapper-ls -L hg18-14gb-12_12_12_12seeds-${i}of4-ls \
      reads.500kx2.36bp.ls.fa \
      -N 8 -p opp-in -I 50,500 -m 20 -i -25 -g -40 -e -10 -E \
      >map.db${i}of4.sam 2>map.db${i}of4.log
    done
  [...]
 ls map.db*.sam
$SHRIMP_FOLDER/bin/mergesam reads.500kx2.36bp.ls.fa map.db?of4.sam > map.sam

最后的map.sam文件就是我们 比对结果啦!

sam文件我就不解释啦!
 因为把参考基因组分开,还是很麻烦,而且耗时的,我并没有那样做,我的机器1T的内存,我不觉得有什么基因组会超出我的内存限制

 

Comments are closed.