诡异的拷贝速度

客户寄送了80个10X单细胞转录组样品的fastq数据给我,本来是想着恰好五一把cellranger流程挂起来,我们也是在单细胞天地公众号详细介绍了cellranger全部使用细节及流程,大家可以自行前往学习,如下:

  • 单细胞实战(一)数据下载
  • 单细胞实战(二) cell ranger使用前注意事项
  • 单细胞实战(三) Cell Ranger使用初探
  • 单细胞实战(四) Cell Ranger流程概览
  • 单细胞实战(五) 理解cellranger count的结果
  • 更新版本见:cellranger更新到4啦(全新使用教程)
    期待节后就可以拿结果,谁知道这8T的移动硬盘拷贝数据到我们的服务器居然是一个小时36G的速度,让我百思不得其解。
    不知道是自己的服务器的磁盘阵列问题,还是客户的移动硬盘的问题,但肯定是得解决掉!
    首先测试自己的服务器的磁盘阵列写入速度,在对应的目录运行下面的命令

    time dd if=/dev/zero of=testw.dbf bs=4M count=1000
    

    效果如下:

    1000+0 records in
    1000+0 records out
    4194304000 bytes (4.2 GB, 3.9 GiB) copied, 9.72997 s, 431 MB/s
    real 0m9.801s
    

    可以看到 4G的测试文件,纯粹的写入是 431 MB/s 并不算是很差了。
    接下来应该是要按部就班的继续测试自己的服务器的磁盘阵列读取速度,以及客户移动硬盘的写入速度和读取速度。但是我突然间灵光一闪,我好像是明白了问题出在哪里。
    其实就是因为我比较贪心,在拷贝这8T的数据的时候,居然想着顺便把这些fastq文件给走一下fastqc流程检查测序质量。
    然后就悲剧了,我开启了40个并行任务,因为fq文件太多了,80个10X单细胞转录组样品的fastq数据,每个样品是12个fq文件。
    但是我忽视了,这个fastqc软件其实是调用了gzip软件,对硬盘的IO消耗非常可观!这就是为什么我拷贝这个移动硬盘里面的数据文件到自己的服务器的磁盘阵列速度会慢的可怜!
    参考:https://www.cnblogs.com/sylar5/p/6649009.html

Comments are closed.