无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据,就是传说中的solid格式,也就是color space的测序数据 ,虽然拿到的测序数据也是fastq格式的, 4行代表一条read,但是第二行已经不是在是碱基序列啦,而是color的编码。Colors may be encoded either as numbers (
0
=blue, 1
=green, 2
=orange, 3
=red) or as characters A/C/G/T
(A
=blue, C
=green, G
=orange, T
=red).我们通常称为csfastq格式。对于这种数据的处理,一般的比对软件是hold 不住的,我查了一下,SHRiMP,sequel和BFAST ,bowtie,是可以处理这种csfastq格式数据的比对的, 我这里简单使用了最出名的SHRiMP 。