这里有4款服务器你会如何选择

这里有4款服务器你会如何选择

当然不会是金斧子银斧子的故事啦,而是实实在在的3款不同配置的服务器,价格区间是一万五到两万五之间,配置是范围是16~64G内存,8~16核,4~16T的存储。在做抉择之前,我先给大家普及一些NGS组学数据的相关知识。

全外显子数据

比如下面这个新加坡研究者做的ESCC的外显子测序研究,对一个肿瘤病人取正常组织加上4个不同部位的肿瘤组织的外显子测序数据如下:

3.9G Sep 20 10:38 ESCC13-N_1.fastq.gz
4.3G Sep 20 10:38 ESCC13-N_2.fastq.gz
5.3G Sep 20 11:32 ESCC13-T1_1.fastq.gz
5.9G Sep 20 11:32 ESCC13-T1_2.fastq.gz
4.6G Sep 20 06:44 ESCC13-T2_1.fastq.gz
5.1G Sep 20 06:44 ESCC13-T2_2.fastq.gz
3.9G Sep 20 03:30 ESCC13-T3_1.fastq.gz
4.4G Sep 20 03:30 ESCC13-T3_2.fastq.gz
4.1G Sep 20 00:42 ESCC13-T4_1.fastq.gz
4.5G Sep 20 00:42 ESCC13-T4_2.fastq.gz

这个项目是双端150bp的测序,测序从46到65 million 不等。一个样本测序数据占接近10G的存储空间,而且是gz压缩后的fastq格式数据。而这一个样本的数据处理过程会耗费接近100G的存储空间,所以根据你自己实际项目规划,你可以算一算需要多少T的硬盘存储。外显子测序我一般会分配5个线程,25~40G的内存,一个样本完成GATK流程需要耗时一天。

转录组数据

比如下面这个老鼠精子研究项目:

 3.9G Sep 26 16:16 GSM860181_priSG-A_RNAseq.fq.gz
 3.4G Sep 26 16:14 GSM860182_SG-A_RNAseq.fq.gz
 2.5G Sep 26 16:01 GSM860183_SG-B_RNAseq.fq.gz
 3.3G Sep 26 16:03 GSM860184_lepSC_RNAseq.fq.gz
 2.7G Sep 26 15:52 GSM860185_pacSC_RNAseq.fq.gz
 3.1G Sep 26 15:51 GSM860186_rST_RNAseq.fq.gz
 2.5G Sep 26 15:38 GSM860187_eST_RNAseq.fq.gz
 3.0G Sep 26 15:41 GSM860188_SE_RNAseq.fq.gz

因为是单端100bp的测序,测序从13到25million 不等,所以单个样本只占4G不到的磁盘空间,转录组数据处理的中间过程比较简单,可以一步输出bam,不会耗费太多的磁盘空间。

全基因组数据

下面是一个韩国人的全基因组数据,代号是KPGP00001 很容易从网络上找到他的如下测序数据

 5.8G Feb 12  2014 KPGP-00001_L1_R1.fq.gz
 6.2G Feb 12  2014 KPGP-00001_L1_R2.fq.gz
 5.6G Feb 12  2014 KPGP-00001_L2_R1.fq.gz
 5.9G Feb 12  2014 KPGP-00001_L2_R2.fq.gz
 5.3G Feb 12  2014 KPGP-00001_L3_R1.fq.gz
 5.5G Feb 12  2014 KPGP-00001_L3_R2.fq.gz
 5.3G Feb 12  2014 KPGP-00001_L4_R1.fq.gz
 5.5G Feb 12  2014 KPGP-00001_L4_R2.fq.gz
 5.2G Feb 12  2014 KPGP-00001_L5_R1.fq.gz
 5.4G Feb 12  2014 KPGP-00001_L5_R2.fq.gz
 5.9G Feb 12  2014 KPGP-00001_L6_R1.fq.gz
 6.1G Feb 12  2014 KPGP-00001_L6_R2.fq.gz

因为全基因组测序数据比较大,所以分成了6条lane来上样测序。采用的是双端90bp的测序,每条lane的数据从85到95 million 不等。 看起来,每条lane等于一个外显子测序样本,所以从磁盘空间消耗和数据处理对计算机资源消耗来说,是类似的。

ChIP-seq数据

可能是为了节省存储空间,我做完这个项目,就把原始的fastq数据给删除了,只能给大家秀一下bam文件了。

611M Jan  5  2017 cbx7.bam
985M Jan  5  2017 IgG.bam
500M Jan  5  2017 IgGold.bam
747M Jan  5  2017 ring1B.bam
1.2G Jan  5  2017 RYBP.bam
838M Jan  5  2017 suz12.bam

bam文件其实与原始的fastq文件是差不多大小的,可以看到ChIP-seq数据算是最节省计算资源的数据了。

其它类型NGS数据

如果是芯片数据,那么个人电脑就可以了,没必要专门买服务器。

如果是新物种基因组的de novo组装,那么本文不适合你,转录组的 de novo组装,勉强还可以。

如果是WGBS,我没有做过,按照道理跟WGS类似的计算资源消耗。

挑选服务器吧

第一款是京东组装机

hpc2

第二款是戴尔品牌机

hpc1

第三款是淘宝组装机

hpc3

 

第4款,阿里云服务器

hpc4

 

 

Comments are closed.