前面我们组建的《 单细胞多组学上下游全打通 》的微信交流群,提到了该文章的数据集PRJNA768891里面的 atac的10x的单细胞,在ena下载是没有用的,必须去ncbi的sra下载,然后自己转fq文件。见:单细胞数据在ENA数据库和NCBI的SRA是有区别的
528M 3月 24 10:50 cellranger-atac-2.1.0.tar.gz 14G 5月 3 2021 refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz
因为必须去ncbi的sra下载,大家可以参考前面的系列教程。
这个项目就3个10x的单细胞ATAC数据,但是文件实在是有点大,所以耗时一天半,sra文件如下所示:
$ ls -lh */*sra |cut -d" " -f5- 45G 8月 5 00:50 SRR16213608/SRR16213608.sra 45G 8月 5 05:21 SRR16213609/SRR16213609.sra 64G 8月 4 21:01 SRR16213610/SRR16213610.sra
第一个步骤就是转化sra文件成为fastq文件,如下所示:
$ ls -lh *fastq|cut -d" " -f5- 67G 8月 5 13:40 SRR16213608_1.fastq 187G 8月 5 14:07 SRR16213608_2.fastq 75G 8月 5 13:43 SRR16213608_3.fastq 187G 8月 5 14:07 SRR16213608_4.fastq 67G 8月 5 13:38 SRR16213609_1.fastq 186G 8月 5 14:07 SRR16213609_2.fastq 74G 8月 5 13:41 SRR16213609_3.fastq 186G 8月 5 14:07 SRR16213609_4.fastq 93G 8月 5 13:55 SRR16213610_1.fastq 262G 8月 5 14:15 SRR16213610_2.fastq 104G 8月 5 13:58 SRR16213610_3.fastq 262G 8月 5 14:15 SRR16213610_4.fastq
前面的代码是:
##确保上面下载的SRR_Acc_List.txt在该目录下 cat >SRR_Acc_List.txt
SRR16213608
SRR16213609
SRR16213610
##prefetch.2.11.0默认最大下载的文件为20G,我们的每个数据都大于20G prefetch -h
#查看指令,发现-X参数可以修改大小,改为100G
#再次运行批量下载
cat SRR_Acc_List.txt |while read id;do (prefetch -X 100G $id &);done #后台下载
ls SRR* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 6 ./$id - -include-technical & );done
因为fastq文件实在是太耗费磁盘空间,所以需要压缩,如下所示:
$ ls -lh *gz |cut -d" " -f5- 5.0G 8月 5 20:48 SRR16213608_1.fastq.gz 31G 8月 5 20:53 SRR16213608_2.fastq.gz 8.6G 8月 5 20:54 SRR16213608_3.fastq.gz 31G 8月 5 20:59 SRR16213608_4.fastq.gz 4.9G 8月 5 21:00 SRR16213609_1.fastq.gz 31G 8月 5 21:05 SRR16213609_2.fastq.gz 8.6G 8月 5 21:06 SRR16213609_3.fastq.gz 31G 8月 5 21:11 SRR16213609_4.fastq.gz 6.8G 8月 5 21:12 SRR16213610_1.fastq.gz 45G 8月 5 21:19 SRR16213610_2.fastq.gz 13G 8月 5 21:21 SRR16213610_3.fastq.gz 45G 8月 5 21:28 SRR16213610_4.fastq.gz
前面提到的了,cellranger-atac 的 软件官网说的很清楚:https://support.10xgenomics.com/single-cell-atac/software/pipelines/latest/using/fastq-input,所以需要修改文件名字:
mv SRR16213608_1.fastq.gz SRR16213608_S1_L001_I1_001.fastq.gz mv SRR16213608_2.fastq.gz SRR16213608_S1_L001_R1_001.fastq.gz mv SRR16213608_3.fastq.gz SRR16213608_S1_L001_R2_001.fastq.gz mv SRR16213608_4.fastq.gz SRR16213608_S1_L001_R3_001.fastq.gz mv SRR16213609_1.fastq.gz SRR16213609_S1_L001_I1_001.fastq.gz mv SRR16213609_2.fastq.gz SRR16213609_S1_L001_R1_001.fastq.gz mv SRR16213609_3.fastq.gz SRR16213609_S1_L001_R2_001.fastq.gz mv SRR16213609_4.fastq.gz SRR16213609_S1_L001_R3_001.fastq.gz mv SRR16213610_1.fastq.gz SRR16213610_S1_L001_I1_001.fastq.gz mv SRR16213610_2.fastq.gz SRR16213610_S1_L001_R1_001.fastq.gz mv SRR16213610_3.fastq.gz SRR16213610_S1_L001_R2_001.fastq.gz mv SRR16213610_4.fastq.gz SRR16213610_S1_L001_R3_001.fastq.gz
这3个样品,每个样品都有4个合格的文件名字,就可以跑cellranger-atac 的 流程啦,代码也很简单
$ cat run-cellranger_hg38.sh
bin=/pipeline/cellranger-atac-2.1.0/bin/cellranger-atac
db=/pipeline/refdata-cellranger-arc-GRCh38-2020-A-2.0.0
ls $bin; ls $db
fq_dir=/jmzeng/2022-PRJNA768891-ccRCC/raw
$bin count --id=$1 \
--localcores=4 \
--reference=$db \
--fastqs=$fq_dir \
--sample=$1
上面的脚本是文件是run-cellranger_hg38.sh ,我们对3个样品独立跑流程, 使用这个脚本,如下所示:
bash run-cellranger_hg38.sh SRR16213608 1>log-SRR16213608.txt 2>&1 bash run-cellranger_hg38.sh SRR16213609 1>log-SRR16213609.txt 2>&1 bash run-cellranger_hg38.sh SRR16213610 1>log-SRR16213610.txt 2>&1
然后就得到了3个样品的cellranger-atac 的流程的输出文件,其实跟前面分享的单细胞转录组大同小异。
$ tree -h . |-- [ 0] SRR16213608 | |-- [ 75M] filtered_peak_bc_matrix.h5 | |-- [3.0G] fragments.tsv.gz | |-- [1.3M] fragments.tsv.gz.tbi | |-- [2.7M] peaks.bed | `-- [ 33M] singlecell.csv |-- [ 0] SRR16213609 | |-- [ 46M] filtered_peak_bc_matrix.h5 | |-- [3.1G] fragments.tsv.gz | |-- [1.3M] fragments.tsv.gz.tbi | |-- [1.8M] peaks.bed | `-- [ 33M] singlecell.csv `-- [ 0] SRR16213610 |-- [ 46M] filtered_peak_bc_matrix.h5 |-- [4.3G] fragments.tsv.gz |-- [1.4M] fragments.tsv.gz.tbi |-- [1.8M] peaks.bed `-- [ 36M] singlecell.csv 3 directories, 15 files
考虑到大家前面可能是没有几个T的磁盘空间,也不要自己走这个10x的单细胞ATAC上游流程之cellranger-atac,我把上面的 3 directories, 15 files 上传到了百度云,分享给大家:
链接:https://pan.baidu.com/s/1O0alFuve4avZE3CuQikRrA 提取码:ablz 有效期还有半个月(2022年08月15日开始算)
cellranger的定量流程合辑
正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:
差不多几个小时就可以完成全部的样品的cellranger的定量流程。基础知识非常重要,我们在单细胞天地多次分享过cellranger流程的笔记(2019年5月),大家可以自行前往学习,如下: