这里有4款服务器你会如何选择
当然不会是金斧子银斧子的故事啦,而是实实在在的3款不同配置的服务器,价格区间是一万五到两万五之间,配置是范围是16~64G内存,8~16核,4~16T的存储。在做抉择之前,我先给大家普及一些NGS组学数据的相关知识。
全外显子数据
比如下面这个新加坡研究者做的ESCC的外显子测序研究,对一个肿瘤病人取正常组织加上4个不同部位的肿瘤组织的外显子测序数据如下:
3.9G Sep 20 10:38 ESCC13-N_1.fastq.gz 4.3G Sep 20 10:38 ESCC13-N_2.fastq.gz 5.3G Sep 20 11:32 ESCC13-T1_1.fastq.gz 5.9G Sep 20 11:32 ESCC13-T1_2.fastq.gz 4.6G Sep 20 06:44 ESCC13-T2_1.fastq.gz 5.1G Sep 20 06:44 ESCC13-T2_2.fastq.gz 3.9G Sep 20 03:30 ESCC13-T3_1.fastq.gz 4.4G Sep 20 03:30 ESCC13-T3_2.fastq.gz 4.1G Sep 20 00:42 ESCC13-T4_1.fastq.gz 4.5G Sep 20 00:42 ESCC13-T4_2.fastq.gz
这个项目是双端150bp的测序,测序从46到65 million 不等。一个样本测序数据占接近10G的存储空间,而且是gz压缩后的fastq格式数据。而这一个样本的数据处理过程会耗费接近100G的存储空间,所以根据你自己实际项目规划,你可以算一算需要多少T的硬盘存储。外显子测序我一般会分配5个线程,25~40G的内存,一个样本完成GATK流程需要耗时一天。
转录组数据
比如下面这个老鼠精子研究项目:
3.9G Sep 26 16:16 GSM860181_priSG-A_RNAseq.fq.gz 3.4G Sep 26 16:14 GSM860182_SG-A_RNAseq.fq.gz 2.5G Sep 26 16:01 GSM860183_SG-B_RNAseq.fq.gz 3.3G Sep 26 16:03 GSM860184_lepSC_RNAseq.fq.gz 2.7G Sep 26 15:52 GSM860185_pacSC_RNAseq.fq.gz 3.1G Sep 26 15:51 GSM860186_rST_RNAseq.fq.gz 2.5G Sep 26 15:38 GSM860187_eST_RNAseq.fq.gz 3.0G Sep 26 15:41 GSM860188_SE_RNAseq.fq.gz
因为是单端100bp的测序,测序从13到25million 不等,所以单个样本只占4G不到的磁盘空间,转录组数据处理的中间过程比较简单,可以一步输出bam,不会耗费太多的磁盘空间。
全基因组数据
下面是一个韩国人的全基因组数据,代号是KPGP00001 很容易从网络上找到他的如下测序数据
5.8G Feb 12 2014 KPGP-00001_L1_R1.fq.gz 6.2G Feb 12 2014 KPGP-00001_L1_R2.fq.gz 5.6G Feb 12 2014 KPGP-00001_L2_R1.fq.gz 5.9G Feb 12 2014 KPGP-00001_L2_R2.fq.gz 5.3G Feb 12 2014 KPGP-00001_L3_R1.fq.gz 5.5G Feb 12 2014 KPGP-00001_L3_R2.fq.gz 5.3G Feb 12 2014 KPGP-00001_L4_R1.fq.gz 5.5G Feb 12 2014 KPGP-00001_L4_R2.fq.gz 5.2G Feb 12 2014 KPGP-00001_L5_R1.fq.gz 5.4G Feb 12 2014 KPGP-00001_L5_R2.fq.gz 5.9G Feb 12 2014 KPGP-00001_L6_R1.fq.gz 6.1G Feb 12 2014 KPGP-00001_L6_R2.fq.gz
因为全基因组测序数据比较大,所以分成了6条lane来上样测序。采用的是双端90bp的测序,每条lane的数据从85到95 million 不等。 看起来,每条lane等于一个外显子测序样本,所以从磁盘空间消耗和数据处理对计算机资源消耗来说,是类似的。
ChIP-seq数据
可能是为了节省存储空间,我做完这个项目,就把原始的fastq数据给删除了,只能给大家秀一下bam文件了。
611M Jan 5 2017 cbx7.bam 985M Jan 5 2017 IgG.bam 500M Jan 5 2017 IgGold.bam 747M Jan 5 2017 ring1B.bam 1.2G Jan 5 2017 RYBP.bam 838M Jan 5 2017 suz12.bam
bam文件其实与原始的fastq文件是差不多大小的,可以看到ChIP-seq数据算是最节省计算资源的数据了。
其它类型NGS数据
如果是芯片数据,那么个人电脑就可以了,没必要专门买服务器。
如果是新物种基因组的de novo组装,那么本文不适合你,转录组的 de novo组装,勉强还可以。
如果是WGBS,我没有做过,按照道理跟WGS类似的计算资源消耗。
挑选服务器吧
第一款是京东组装机
第二款是戴尔品牌机
第三款是淘宝组装机
第4款,阿里云服务器