七 05

自学CHIP-seq分析第三讲~公共测序数据下载

Posted on 2016年7月5日 by ulwvfje

这一步跟自学其它高通量测序数据处理一样，就是仔细研读paper，在里面找到作者把原始测序数据放在了哪个公共数据库里面，一般是NCBI的GEO，SRA，本文也不例外，然后解析样本数，找到下载链接规律

## step1 : download raw data

cd ~

mkdir CHIPseq_test && cd CHIPseq_test

mkdir rawData && cd rawData

## batch download the raw data by shell script :

for ((i=593;i<601;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042$i/SRR1042$i.sra;done

很容易就下载了8个测序文件，每个样本的数据大小，测序量如下

621M Jun 27 14:03 SRR1042593.sra (16.9M reads)

2.2G Jun 27 15:58 SRR1042594.sra (60.6M reads)

541M Jun 27 16:26 SRR1042595.sra (14.6M reads)

2.4G Jun 27 18:24 SRR1042596.sra (65.9M reads)

814M Jun 27 18:59 SRR1042597.sra (22.2M reads)

2.1G Jun 27 20:30 SRR1042598.sra (58.1M reads)

883M Jun 27 21:08 SRR1042599.sra (24.0M reads)

2.8G Jun 28 11:53 SRR1042600.sra (76.4M reads)

虽然下载的SRA格式数据也是一个很流行的标准，但它只是数据压缩的标准，几乎没有软件能直接跟SRA的格式的测序数据来进行分析，我们需要转成fastq格式，代码如下：

## step2 : change sra data to fastq files.

## cell line: MCF7 // Illumina HiSeq 2000 // 50bp // Single ends // phred+33

## http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52964

## ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done

rm *sra

解压的详情如下，可以看到SRA格式有6~9倍的压缩了，比zip格式压缩的2~3倍高多了

## 621M --> 3.9G

## 2.2G --> 14G

## 541M --> 3.3G

## 2.4G --> 15G

六 25

自学miRNA-seq分析第三讲~公共测序数据下载

Posted on 2016年6月25日 by ulwvfje

前面已经讲到了该文章的数据已经上传到NCBI的SRA数据中心，所以直接根据索引号下载，然后用SRAtoolkit转出我们想要的fastq测序数据即可。下载的数据一般要进行质量控制，可视化展现一下质量如何，然后根据大题测序质量进行简单过滤。所以需要提前安装一些软件来完成这些任务，包括： sratoolkit /fastx_toolkit /fastqc/bowtie2/hg19/miRBase/SHRiMP

下面是我用新服务器下载安装软件的一些代码记录，因为fastx_toolkit /fastqc我已经安装过，就不列代码了，还有miRBase的下载，我在前面第二讲里面提到过，传送门：自学miRNA-seq分析第二讲~学习资料的搜集 Continue reading →

三 19

SRA工具sratoolkit把原始测序数据转为fastq格式

Posted on 2015年3月19日 by ulwvfje

一，下载该软件

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

tar xzf sratoolkit.current-centos_linux64.tar.gz

解压直接使用即可，里面有一大堆的软件，针对不同的测序仪，不同的数据 Continue reading →

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Tag Archives: sratoolkit

自学CHIP-seq分析第三讲~公共测序数据下载

自学miRNA-seq分析第三讲~公共测序数据下载

SRA工具sratoolkit把原始测序数据转为fastq格式

2025年4月
一	二	三	四	五	六	日
« 九
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30