我在2015年逛biostar论坛的时候,看到了这样的表述:
Tophat 首次被发表已经是6年前<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!
当时各路大神就建议大家抛弃传统的tophat加cufflinks流程,毕竟其作者都说它过时了,起码可以替换成为:hisat2+stringtie+ballgown流程啊!
又是六年过去了
还有人跟我讨论tophat加cufflinks流程,让我非常郁闷,而且对方还拿出来了最新文献,是:《The oncogene AAMDC links PI3K-AKT-mTOR signaling with metabolic reprograming in estrogen receptor-positive breast cancer》,链接是:https://www.nature.com/articles/s41467-021-22101-7
整个研究都是围绕 Adipogenesis associated Mth938 domain containing (AAMDC) 这个基因 。里面有转录组测序数据,在 GSE92893 and GSE123740. 可以看到这两个数据其实相差五年:
所以作者自己也是有两套流程,针对早期数据,走tophat加cufflinks流程。但是针对最近的数据,走salmon和DESeq2流程,完全是两码事!
如果你现在还推荐大家使用tophat加cufflinks流程来处理转录组数据,就有点过分了!
如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据,也不要急于嘲讽,有可能是他们的数据本来就是五六年前的,或者给他们服务的公司仍然是使用过时的流程而已。