质控之前我们在直播八的时候分析过,公司也给了我质控后的的数据,但是毕竟是别人做的,我们做为一个数据分析师,自己动手来验证一下公司给出的报告也是再好不过的了。大家可以跟着我先将下载数据进行一下质控。
因为此直播系列走得是半科普半技术路线,所以我这里show一个最常用也是最简单的测序质量控制软件,大名鼎鼎的fastqc软件,它是一个java软件,功能很单一,就是对你的测序数据生成一个网页版的可视化检测报告而已。这个软件的安装可以查看之前的直播贴(【直播】我的基因组(八):原始测序数据质量报告)。它在在linux或者windows平台都可以使用。直接下载这个压缩包: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
我比较喜欢把这些软件放在biosoft文件夹下面(个人windows电脑),这个软件安装后会自带一些数据,大家感兴趣可以查看一下。
由于fastqc是免安装软件,直接解压后就可以直接使用。解压打开里面后缀是 .bat (相对于windows平台的批处理程序)的文件就打开fastqc啦,然后导入数据开始分析即可,静候一两个小时。
如果你用的是linux服务器,可以直接用unzip解压fastqc的zip压缩文件。里面有个fastqc的文件,就是fastqc的程序了。我们可以用fastqc -o output dir [-(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN的命令让它进行质量控制。-o是用来指定输出文件的目录,注意是这里是不能自动新建目录的。输出的结果是.zip文件,默认自动解压缩,-noextract则不解压缩。-f用来强制指定输入文件格式,默认会自动检测。-c用来指定一个contaminant文件,fastqc会把overrepresented sequences往这个contaminant文件里搜索。后面加上你要质控的序列的文件名就可以了。
把所有的fastq.gz文件用fastqc软件处理得到的测序质量检测报告是一个html文件加上一个文件夹,如果没有解压缩需要用命令ls *zip|while read id;do unzip $id;done,把所有压缩包批量解压开。可以看到对每个测序数据它都进行了十几项统计结果和可视化的图片,对该款软件的结果感兴趣的可以下载(http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip) 文件,对原始数据处理前后的fastqc报告的区别显而易见。
然后批量抓取里面的%GC,Total sequences等信息,来跟之前公司给我的报告做比较,看看公司给我的结果有什么出入!
我以前写过帖子关于如何得到fastqc的统计表格:写脚本对fastqc的结果进行统计咯!
也就是说把多个qc的结果通过脚本整理在一起,方便查看。我们的统计结果如下:
当然一般不会有什么差别的,而且fastqc跑出来的结果都是合格的,公司对raw data得到clean的步骤仅仅是过滤掉不合格的reads,全部丢弃,而不是截断,豪气!!!
因为illumina的X10机器跑出来的数据一般都非常不错,我就没有在这里面下太多功夫,只是走个流程看一下测序质量,的确非常好,大家如果遇到质量比较差的数据,可以去我博客里面寻找各种解决方案。当然,质量控制不只是看序列的质量,还有很多小技巧,我会在后面的帖子里面专项讲解,比如我的数据是5条lane的数据合并起来的,那么lane的上样品是一定正确吗,那些没有比对上的reads是什么之类的相关问题。
请扫描以下二维码关注我们,获取直播系列的所有帖子!