PRINSEQ软件使用说明
PRINSEQ全称是PReprocessing and INformation of SEQuences,下面是关于这个软件工具的一些链接:
它是这样介绍自己的:
PRINSEQ can be used to filter, reformat, or trim your genomic and metagenomic sequence data. It generates summary statistics of your sequences in graphical and tabular format. It is easily configurable and provides a user-friendly interface.
不依赖于其它perl模块,所以安装非常方便,功能大概就像是fastqc和fastx-toolkit的合集,是2011年发表的工具了,但是不知道为什么它不是很出名。
首先安装该软件:
cd ~/biosoft mkdir PRINSEQ && cd PRINSEQ wget https://sourceforge.net/projects/prinseq/files/standalone/prinseq-lite-0.20.4.tar.gz tar zxvf prinseq-lite-0.20.4.tar.gz
用法很简单:
perl prinseq-lite.pl -verbose -fastq test.fq -graph_data test.gd -out_good null -out_bad null perl prinseq-graphs.pl -i test.gd -png_all -o test perl prinseq-graphs.pl -i test.gd -html_all -o test
我也简单测试了一下自己的数据
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-lite.pl -verbose -phred64 -graph_data test.gd -out_good null -out_bad null -fastq <( zcat NPC10F-N_1.fastq.gz ) -fastq2 <( zcat NPC10F-N_2.fastq.gz ) perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i test.gd -png_all -o test perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i test.gd -html_all -o test
我想它之所以不流行,就是因为它对fastq文件的支持性太差了,还需要用户自己解压开gz格式的文件,这对很多人来说是一个挑战。
分析的确不需要perl模块,但是绘图是需要一些特殊模块的,包括:
Getopt::Long Pod::Usage File::Temp qw(tempfile) Fcntl qw(:flock SEEK_END) Cwd JSON Cairo Statistics::PCA MIME::Base64
出网页包括也需要一些perl模块,如下:
CGI
File::Path
IO::Uncompress::AnyUncompress
LWP::Simple
File::Copy
File::Basename
这就是大家为什么不喜欢用这个软件的原因了吧,还有一些特殊要求我都懒得讲解了,https://sourceforge.net/projects/prinseq/files/ 自行阅读哈。
但是它有两个值得一提的功能!
测序污染序列PCA分析
很多情况下提取的DNA会混杂有其它物种,对下游分析不利,这个时候就需要仔细检查了,PRINSEQ软件正好派上用场。
不过我没看懂那个图!需要去看一篇文章 Willner D, Thurber RV, Rohwer F: Metagenomic signatures of 86 microbial and viral metagenomes. Environ. Microbiol 2009.
组装基因组的N50等分析
有参数 -stats_assembly 可以选择!
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-lite.pl -verbose -fasta output_prefix.contigs.fa -stats_assembly
就是给出一些指标,如下;
stats_assembly N50 176 stats_assembly N75 113 stats_assembly N90 78 stats_assembly N95 70