转录组比对软件tophat的使用

转录组比对软件tophat的使用

为什么要用这个软件?:因为转录组reads比对到基因组reads用bwa和bowtie的效果都不够好,所以我们选择tophat

它做了什么?:tophat把测序的转录组的原始reads比对到了参考基因组上面,并且输出了bam(二进制的sam)文件比对结果给我们。(fastq--->bam)

一:下载安装该软件

其实一般的生信服务器自然会有高手给安装好了,你只需调用即可,这里我给大家演示一下如何安装。

wget   http://ccb.jhu.edu/software/tophat/downloads/tophat-2.0.13.Linux_x86_64.tar.gz

我这里简单下载二进制版本的,直接解压即可使用,里面除了tophat之外,还有好几个小工具,也是挺实用的。

tophat简单使用688       

二:准备数据

数据当然是测序的转录组的原始reads啦,fastq格式的

tophat简单使用923

还有人的参考基因组,这里选择人的hg19,很容易就下载了,bowtie官网里面有下载并且索引好了所有文件。如果你是自己下载的hg19,需要用bowtie先进行索引,见我的bowtie简单使用教程

tophat简单使用1219

三:运行命令

不需要看那么多的参数,首先要能用

/home/jmzeng/bio-soft/tophat-2.0.13.Linux_x86_64/tophat2 /home/jmzeng/ref-database/hg19 case1.fq

拆开看就是tophat2   hg19  case1.fq    即可,不需要设置任何参数,等需要优化的时候再去思考参数的意义,我这里是单端测序的命令。

tophat简单使用1615

不过我的习惯是用脚本解决问题,一定要批量化运行的,我设置了30个CPU,也设置了输出目录,还加上了一个转录本

tophat简单使用1868

也许是要等明天才能看结果啦

好像用了30个cpu跑的很快,每个两个多小时就跑完啦

tophat简单使用2107

四:输出文件解读

这三个文件夹里面就输出文件,每个样本一个输出文件夹,

tophat简单使用2342

任意进入一个文件夹可以看

通常,我们只需要那个accepted_hits.bam文件,是我们的测序reads成功比对到hg19什么的比对情况。

tophat简单使用2554

接下来就可以用很多软件来处理这个bam文件了

 

Comments are closed.