高速下载GEO数据库的单细胞表达量矩阵文件

一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。

但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 :

 GSE253013_all_luad_garnett_temp.rds.gz 9.3 Gb (ftp)(http) RDS

如果是慢慢的下载需要两三天时间:

wget -c https://ftp.ncbi.nlm.nih.gov/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz

8.04M 34.2KB/s 剩余 2d 4h

借助aspera的高速下载

首先自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可,然后要详细的阅读GEO数据库的官方文档

需要构建的命令如下所示:

conda activate download

ascp -v -k 1 -T -l 200m \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
anonftp@ftp.ncbi.nlm.nih.gov:/geo/series/GSE253nnn/GSE253013/suppl/GSE253013_all_luad_garnett_temp.rds.gz ./

下载速度非常感人:

1% 97MB 191Mb/s

全部的Linux命令

首先是安装自己的conda,在自己的服务器里面自己下载并且安装自己的conda,自己配置哈:

# 首先下载文件,20M/S的话需要几秒钟即可
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# Miniconda3-latest-Linux-x86_64.sh 135.1 MiB 2023-12-21 09:23
# wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 如果比较慢就切换镜像哦

# 接下来使用bash命令来运行我们下载的文件,记得是一路yes下去
bash Miniconda3-latest-Linux-x86_64.sh 
# 上面的bash命令安装成功后,需要更新系统环境变量文件
source ~/.bashrc

首先如果是在中国大陆,需要设置好镜像:

conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

然后就可以使用自己的conda来安装 aspera 软件,本来是说让大家自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可。

conda create -n download 
conda activate download 
conda install -y -c hcc aspera-cli 
which ascp 
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh

上面的代码是基于Linux操作系统哦,如果大家一定要在自己的Windows或者Mac电脑处理,就简单的替换关键参数即可。

Comments are closed.