这一步跟自学其它高通量测序数据处理一样,就是仔细研读paper,在里面找到作者把原始测序数据放在了哪个公共数据库里面,一般是NCBI的GEO,SRA,本文也不例外,然后解析样本数,找到下载链接规律
## step1 : download raw datacd ~mkdir CHIPseq_test && cd CHIPseq_testmkdir rawData && cd rawData## batch download the raw data by shell script :for ((i=593;i<601;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042$i/SRR1042$i.sra;done
很容易就下载了8个测序文件,每个样本的数据大小,测序量如下
621M Jun 27 14:03 SRR1042593.sra (16.9M reads)2.2G Jun 27 15:58 SRR1042594.sra (60.6M reads)541M Jun 27 16:26 SRR1042595.sra (14.6M reads)2.4G Jun 27 18:24 SRR1042596.sra (65.9M reads)814M Jun 27 18:59 SRR1042597.sra (22.2M reads)2.1G Jun 27 20:30 SRR1042598.sra (58.1M reads)883M Jun 27 21:08 SRR1042599.sra (24.0M reads)2.8G Jun 28 11:53 SRR1042600.sra (76.4M reads)
虽然下载的SRA格式数据也是一个很流行的标准,但它只是数据压缩的标准,几乎没有软件能直接跟SRA的格式的测序数据来进行分析,我们需要转成fastq格式,代码如下:
## step2 : change sra data to fastq files.## cell line: MCF7 // Illumina HiSeq 2000 // 50bp // Single ends // phred+33ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;donerm *sra
解压的详情如下,可以看到SRA格式有6~9倍的压缩了,比zip格式压缩的2~3倍高多了
## 621M --> 3.9G
## 2.2G --> 14G
## 541M --> 3.3G
## 2.4G --> 15G