10x的单细胞ATAC上游流程之cellranger-atac

前面我们组建的《 单细胞多组学上下游全打通 》的微信交流群,提到了该文章的数据集PRJNA768891里面的 atac的10x的单细胞,在ena下载是没有用的,必须去ncbi的sra下载,然后自己转fq文件。见:单细胞数据在ENA数据库和NCBI的SRA是有区别的

软件和数据库文件都需要自己在10x的官网简单的注册后免费的下载和安装:

 528M 3月  24 10:50 cellranger-atac-2.1.0.tar.gz
 14G 5月   3  2021 refdata-cellranger-arc-GRCh38-2020-A-2.0.0.tar.gz

因为必须去ncbi的sra下载,大家可以参考前面的系列教程。

这个项目就3个10x的单细胞ATAC数据,但是文件实在是有点大,所以耗时一天半,sra文件如下所示:

$ ls -lh */*sra |cut -d" " -f5-
45G 8月   5 00:50 SRR16213608/SRR16213608.sra
45G 8月   5 05:21 SRR16213609/SRR16213609.sra
64G 8月   4 21:01 SRR16213610/SRR16213610.sra

第一个步骤就是转化sra文件成为fastq文件,如下所示:

$ ls -lh *fastq|cut -d" " -f5-
 67G 8月   5 13:40 SRR16213608_1.fastq
187G 8月   5 14:07 SRR16213608_2.fastq
 75G 8月   5 13:43 SRR16213608_3.fastq
187G 8月   5 14:07 SRR16213608_4.fastq
 67G 8月   5 13:38 SRR16213609_1.fastq
186G 8月   5 14:07 SRR16213609_2.fastq
 74G 8月   5 13:41 SRR16213609_3.fastq
186G 8月   5 14:07 SRR16213609_4.fastq
 93G 8月   5 13:55 SRR16213610_1.fastq
262G 8月   5 14:15 SRR16213610_2.fastq
104G 8月   5 13:58 SRR16213610_3.fastq
262G 8月   5 14:15 SRR16213610_4.fastq

前面的代码是:

##确保上面下载的SRR_Acc_List.txt在该目录下 cat >SRR_Acc_List.txt
SRR16213608
SRR16213609
SRR16213610
​
##prefetch.2.11.0默认最大下载的文件为20G,我们的每个数据都大于20G prefetch -h
#查看指令,发现-X参数可以修改大小,改为100G
#再次运行批量下载
cat SRR_Acc_List.txt |while read id;do (prefetch -X 100G $id &);done #后台下载
ls SRR* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 6 ./$id - -include-technical & );done
​

因为fastq文件实在是太耗费磁盘空间,所以需要压缩,如下所示:

$ ls -lh *gz |cut -d" " -f5-
5.0G 8月   5 20:48 SRR16213608_1.fastq.gz
 31G 8月   5 20:53 SRR16213608_2.fastq.gz
8.6G 8月   5 20:54 SRR16213608_3.fastq.gz
 31G 8月   5 20:59 SRR16213608_4.fastq.gz
4.9G 8月   5 21:00 SRR16213609_1.fastq.gz
 31G 8月   5 21:05 SRR16213609_2.fastq.gz
8.6G 8月   5 21:06 SRR16213609_3.fastq.gz
 31G 8月   5 21:11 SRR16213609_4.fastq.gz
6.8G 8月   5 21:12 SRR16213610_1.fastq.gz
 45G 8月   5 21:19 SRR16213610_2.fastq.gz
 13G 8月   5 21:21 SRR16213610_3.fastq.gz
 45G 8月   5 21:28 SRR16213610_4.fastq.gz

前面提到的了,cellranger-atac 的 软件官网说的很清楚:https://support.10xgenomics.com/single-cell-atac/software/pipelines/latest/using/fastq-input,所以需要修改文件名字:

mv SRR16213608_1.fastq.gz   SRR16213608_S1_L001_I1_001.fastq.gz
mv SRR16213608_2.fastq.gz   SRR16213608_S1_L001_R1_001.fastq.gz
mv SRR16213608_3.fastq.gz   SRR16213608_S1_L001_R2_001.fastq.gz
mv SRR16213608_4.fastq.gz   SRR16213608_S1_L001_R3_001.fastq.gz
mv SRR16213609_1.fastq.gz   SRR16213609_S1_L001_I1_001.fastq.gz
mv SRR16213609_2.fastq.gz   SRR16213609_S1_L001_R1_001.fastq.gz
mv SRR16213609_3.fastq.gz   SRR16213609_S1_L001_R2_001.fastq.gz
mv SRR16213609_4.fastq.gz   SRR16213609_S1_L001_R3_001.fastq.gz
mv SRR16213610_1.fastq.gz   SRR16213610_S1_L001_I1_001.fastq.gz
mv SRR16213610_2.fastq.gz   SRR16213610_S1_L001_R1_001.fastq.gz
mv SRR16213610_3.fastq.gz   SRR16213610_S1_L001_R2_001.fastq.gz
mv SRR16213610_4.fastq.gz   SRR16213610_S1_L001_R3_001.fastq.gz

这3个样品,每个样品都有4个合格的文件名字,就可以跑cellranger-atac 的 流程啦,代码也很简单

$ cat run-cellranger_hg38.sh 
bin=/pipeline/cellranger-atac-2.1.0/bin/cellranger-atac 
db=/pipeline/refdata-cellranger-arc-GRCh38-2020-A-2.0.0
ls $bin; ls $db 
fq_dir=/jmzeng/2022-PRJNA768891-ccRCC/raw
$bin count --id=$1 \
--localcores=4 \
--reference=$db \
--fastqs=$fq_dir \
--sample=$1

上面的脚本是文件是run-cellranger_hg38.sh ,我们对3个样品独立跑流程, 使用这个脚本,如下所示:

bash run-cellranger_hg38.sh SRR16213608 1>log-SRR16213608.txt 2>&1  
bash run-cellranger_hg38.sh SRR16213609 1>log-SRR16213609.txt 2>&1  
bash run-cellranger_hg38.sh SRR16213610 1>log-SRR16213610.txt 2>&1

然后就得到了3个样品的cellranger-atac 的流程的输出文件,其实跟前面分享的单细胞转录组大同小异。

$ tree -h
.
|-- [   0]  SRR16213608
|   |-- [ 75M]  filtered_peak_bc_matrix.h5
|   |-- [3.0G]  fragments.tsv.gz
|   |-- [1.3M]  fragments.tsv.gz.tbi
|   |-- [2.7M]  peaks.bed
|   `-- [ 33M]  singlecell.csv
|-- [   0]  SRR16213609
|   |-- [ 46M]  filtered_peak_bc_matrix.h5
|   |-- [3.1G]  fragments.tsv.gz
|   |-- [1.3M]  fragments.tsv.gz.tbi
|   |-- [1.8M]  peaks.bed
|   `-- [ 33M]  singlecell.csv
`-- [   0]  SRR16213610
    |-- [ 46M]  filtered_peak_bc_matrix.h5
    |-- [4.3G]  fragments.tsv.gz
    |-- [1.4M]  fragments.tsv.gz.tbi
    |-- [1.8M]  peaks.bed
    `-- [ 36M]  singlecell.csv

3 directories, 15 files

考虑到大家前面可能是没有几个T的磁盘空间,也不要自己走这个10x的单细胞ATAC上游流程之cellranger-atac,我把上面的 3 directories, 15 files 上传到了百度云,分享给大家:

链接:https://pan.baidu.com/s/1O0alFuve4avZE3CuQikRrA 
提取码:ablz  
有效期还有半个月(2022年08月15日开始算)

cellranger的定量流程合辑

正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:

差不多几个小时就可以完成全部的样品的cellranger的定量流程。基础知识非常重要,我们在单细胞天地多次分享过cellranger流程的笔记(2019年5月),大家可以自行前往学习,如下:

 

Comments are closed.