三 24

草莓基因组数据预处理

Posted on 2015年3月24日 by ulwvfje

今天先对7个单端数据做处理，是454数据，平均长度300bp左右，明天再处理3KB和20KB的配对reads。

首先跑fastqc

打开一个个看结果

可以看到前面一些碱基的质量还是不错的，因为这是454平台测序数据，序列片段长度差异很大，一般前四百个bp的碱基质量还是不错的，太长了的测序片段也不可靠

重点在下面这个图片，可以看到，前面的4个碱基是adaptor，肯定是要去除的，不是我们的测序数据。是TCAG，需要去除掉。

所以我们用了 solexaQA 这个套装软件对原始测序数据进行过滤

可以看到过滤的非常明显！！！甚至有个样本基本全军覆没了！然后我查看了我的批处理脚本，发现可能是perl DynamicTrim.pl -454 $id这个参数有问题

for id in *fastq

echo $id

perl DynamicTrim.pl -454 $id

done

for id in *trimmed

echo $id

perl LengthSort.pl $id

done

可以看到末尾的质量差的碱基都被去掉了，但是头部的TCAG还是没有去掉。

处理完毕后的数据如下：

三 24

solexaQA 对测序数据进行简单过滤

Posted on 2015年3月24日 by ulwvfje

一．下载该软件

http://solexaqa.sourceforge.net/index.htm

下载解压开

现在已经把它的三个功能整合到一起啦

之前是分开的程序，我主要用它的两个perl 程序，我比较喜欢之前的版本，所以下面的讲解也是基于这两个perl程序。

这两

个主要是对reads进行最大子串的截取

二．准备数据。

就是我们测序得到的原始数据。

第一个就是质量控制，一般是以20为标准，当然你也可以自己设定，该软件质控的原理如下：

使用默认的参数值(defaults to P = 0.05, or equivalently, Q = 13)

基本上就是取符合阈值的最大子串。

二：命令使用很简单一般使用DynamicTrim与LengthSort.pl就可以了

for id in *fastq

echo $id

perl DynamicTrim.pl -454 $id

done

for id in *trimmed

echo $id

perl LengthSort.pl $id

done

首先使用DynamicTrim.pl程序，非常耗时间

几个小时完毕之后

查看，产出文件如下

可以看到丢弃的不多，也就三五百M的

简单查看丢弃的，都是短的。

perl -lne '{print length if $.%4==2}' SRR1793918.fastq.trimmed.discard |head

用这个脚本查看，可知好像都是短于25个碱基的被舍弃掉了，这个参数可以调整的。

接下来就可以用这些数据进行数据分析了

三 24

旧版本blast详解

Posted on 2015年3月24日 by ulwvfje

其实我现在一般都用的是blast++了，也专门写了篇日志介绍它！

但是看到一些就的服务器上面只有blast，所以就搜了一些它的用法。

主要参考 http://www.bio.ku.dk/nuf/resources/BLAST_index.htm

很简单的两个步骤

首先建库formatdb -i Cad16_aa.fasta -p T -o F

就是把 Cad16_aa.fasta这个序列文件变成blast专用的库，-p选项中的T是代表蛋白库

然后就比对咯，比对程序有六个，需要用-p来选择

blastall -p blastx -d nr -i 19A.fa -o 19A.outm -v 1 -b 1 -m 8

上面这个命令就是选择了blastx这个比对程序，数据库是nr ，输入的查询序列是 19A.fa

然后我们输出格式的m8，这个格式很重要，我们还可以设置-a控制cpu数量，和-e控制阈值

BLAST programs
blastp	Protein query > Protein database
blastn	Nucleotide query > Nucleotide database
blastx	Nucleotide query > Protein database (via translated query)
tblastn	Protein query > Nucleotide database (via translated database)
tblastx	Nucleotide query > Nucleotide database (via translated query and database)

Formatting database for local BLAST
-	Show a list of all arguments.
-i	Input file(s) for formatting. Optional.
-p	Type of file [T/F]. T = protein, F = nucleotide. Default = T.
-o	Parse option [T/F]. T = Parse SeqId and create indexes, F = Do not parse or create indexes.

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Daily Archives: 2015年3月24日

草莓基因组数据预处理

solexaQA 对测序数据进行简单过滤

旧版本blast详解

2015年3月
一	二	三	四	五	六	日
				四 »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31