有网友咨询过对于没有参考基因组或者转录组的物种,如何做RNA-seq分析。我觉得这个问题太大了,而且我还真的对这个没有经验。但是我以前看到过一篇文献,里面提到过一个非常全面的转录组 de novo组装注释流程,所以我摘抄了文章里面的生物信息学处理部分,分享给大家: Continue reading
Tag Archives: trinity
转录组-TransDecoder-对trinity结果进行注释
一:下载安装该软件
下载安装该软件: wget https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1
解压进入该目录,查看里面的文件
make一下就可以用了,看起来好像是依赖于perl模块的
这个TransDecoder.LongOrfs就是我们这次需要的程序,查看该程序,的确真是一个perl程序,看来perl还是蛮有用的。
二:准备数据
它里面有个测试数据,是比较全面的,也比较复杂,我就不贴出来了,反正我是那trinity组装好的fasta格式的转录组数据来预测ORF的。
三:运行命令
它给的测试命令也很复杂
## generate alignment gff3 formatted output
../util/cufflinks_gtf_to_alignment_gff3.pl transcripts.gtf > transcripts.gff3
## generate transcripts fasta file
../util/cufflinks_gtf_genome_to_cdna_fasta.pl transcripts.gtf test.genome.fasta > transcripts.fasta
## Extract the long ORFs
../TransDecoder.LongOrfs -t transcripts.fasta
当然我们只需要看最后一步,这是重点
我这里是直接对我们的trinity组装好的转录本进行预测ORF
/home/jmzeng/bio-soft/TransDecoder/TransDecoder.LongOrfs -t Trinity.fasta
命令很简单
输出来的文件就有预测的蛋白文件,这个文件是trinotate对转录本进行注释所必须的文件
四:输出文件解读
longest_orfs.cds 这个是预测到的cds碱基序列,
longest_orfs.gff3 这个是预测得到的gff文件
longest_orfs.pep 这个就是预测得到的蛋白文件
Trinity进行转录组组装的使用说明
Trinity进行转录组组装的使用说明
一:下载安装该软件
去官网下载trinity并解压安装 http://trinityrnaseq.github.io/
安装非常简单,一个make即可
这个软件比较大,约150M。所以安装需要一会时间,以下是安装进程日志,可以看出trinity这个软件安装的同时还附带着好几个测序一起安装进来了。
搜索学习其他学者的RNA数据处理流程(包括原始数据、脚本、中间文件)
搜索其他学者的RNA数据处理流程(包括原始数据、脚本、中间文件)
一:原始数据
是谷歌里面无意中搜索到的,是某个物种的RNA数据,不是很大,但是里面有所有的分析流程,非常方便,对原始reads进行了组装,和注释。
http://moana.dnsalias.org/~sgeib/Anth_RNAseq/Run2.1/RawData/
打开网址可以看到raw data的下载链接