21

自学无参RNAseq数据分析第一讲之参考文献解读

这是我为新创办的 生信技能树 论坛写的帖子,也适合本博客,所以转载过来: http://www.biotrainee.com/thread-243-1-1.html 

以前做的都是有参转录组分析,只需要找到参考基因组和注释文件,然后走QC-->alignment-->counts->DEG-->annotation的流程图即可。
现在开始学习新的东西了,就是无参转录组分析,这里记录一下自己的学习笔记,首先还是资料收集,这次,我就针对性的看5个 全流程化的转录组 de novo 分析 文章,如下:
http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-15-554  2014年栀子花的花瓣衰老的标准de novo 转录组分析,数据如下:用Trinity做组装,用NCBI non-redundant (Nr) database库做注释,做了差异分析(栀子花花期分成4个阶段),GO/KEGG注释,然后做了RT-qPCR的实验验证。
多做了一个 Clusters of Orthologus Groups (COG)的数据库注释

Raw Reads
Clean Reads
Contigs
Unigenes
Annotated
Transcriptome
55,092,396
50,335,672
102,263
57,503
39,459

 

http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-15-236  2014 巴西橡胶树的研究,是一个综合多组织样本的RNA库,ployT建库,454测序,用的是est2Assembly 和gsassembler 软件做组装,用 NCBI RefSeq, Plant Protein Database 做注释,因为没有分组,所以不必做差异分析,只需要找SNV和SSR标记即可,最后也是做GO/KEGG注释

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-016-2633-2 2015 萝卜,用illumina进行转录组测序,用Trinity组装,用RPKM值算unigene的表达量,也是用 BLASTx来对Trinity结果进行注释,注释到NR,NT,Swiss-Prot,GO,COG,kegg数据库,其中GO注释用的是Blast2GO,最后也做了RT-qPCR 实验验证,某些基因在leaf里面的表达量显著高于其它tissue,有原始数据:http://www.ncbi.nlm.nih.gov/sra/?term=SRX1671013
转录组分析结果结果:A total of 54.64 million clean reads and 111,167 contigs representing 53,642 unigenes were obtained from the radish leaf transcriptome.

http://www.nature.com/articles/srep08259 2015 芹菜 叶片发育中木质素的探究,测序的reads是A total of 32,477,416 quality reads were recorded for the leaves at Stage 1, 53,675,555 at Stage 2, and 27,158,566 at Stage 3, respectively.,也是用Trinity组装,kmer值设为25,组装结果:33,213 unigenes with an average length of 1,478 bp, a maximum length of 17,075 bp, and an N50 of 2,060 bp,然后用eggNOG/GO/KEGG数据库来注释。文章正文给了所用到的软件和数据库的详细链接
最后还用了 real-time PCR assays          来看 roots, stems, petioles, and leaf blade 这些组织的基因表达差异情况

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0128659 对 三疣梭子蟹 的卵巢和睾丸的转录组研究,,也是标准的转录组de novo 分析流程,非常值得借鉴
NCBI有上传原始数据:SRR1920180  和SRR1920180  

总结好这5篇文献的数据分析流程,就差不多明白如何做无参的转录组de novo分析了