这个实例上部分包括:
如何用R包下载GEO数据(只限单一平台,其余平台需要修改下面的代码)
如何对GEO的芯片数据归一化并且得到表达量矩阵,
如何用limma包做差异分析,
对找到的差异基因如何做GO和KEGG注释
Tophat 首次被发表已经是6年前
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!
参考:https://speakerdeck.com/stephenturner/rna-seq-qc-and-data-analysis-using-the-tuxedo-suite
搜索其他学者的RNA数据处理流程(包括原始数据、脚本、中间文件)
一:原始数据
是谷歌里面无意中搜索到的,是某个物种的RNA数据,不是很大,但是里面有所有的分析流程,非常方便,对原始reads进行了组装,和注释。
http://moana.dnsalias.org/~sgeib/Anth_RNAseq/Run2.1/RawData/
打开网址可以看到raw data的下载链接