看了illumina的测序仪市场份额的确很夸张,像我这样在生信数据分析领域身经百战的老鸟,都是直到今天才碰到color space的测序数据。测序平台是AB 5500xl Genetic Analyzer,就是传说中的solid格式。主要是我在学习一篇关于tp53转录因子结合能力的文章的时候碰到的 ,我查看了下载的数据虽然还是fastq格式,但很诡异,我完全不认识里面的序列。这里总结一下,下面是我的学习过程及思路,有点乱,大家随便看看!
首先:测序仪给的数据应该是 (.csfasta & .qual) 这两个后缀名的文件
然后,可以用脚本把数据转为csfastq格式, 与普通fastq数据格式是没有区别,但是里面包含的不是序列,是color的编码。
其次,color space不允许转为base space数据!!!
最后,之所以转为csfastq格式,是为了适应很多软件,fastqc,cutadap,SHRiMP,sequel和BFAST ,bowtie等等