18

居然还可以这样欺骗软件

我们的马拉松生物信息学入门课程进入到Linux实战环节,给大家都提供了一个云服务器账号,这样全部的学员都可以登录到我们的服务器里面方便沟通和交流。授课进行到conda安装和管理生物信息学软件,首先在自己的服务器上面安装conda,安装方法代码如下: Continue reading

18

不同癌症内部按照estimate的两个打分值高低分组看蛋白编码基因表达量差异

前面的教程 不同癌症的差异难道大于其与正常对照差异吗,以及 大样本量多分组表达量矩阵分析你难道没想到单细胞吗,我们认识了TCGA数据库的33种癌症的全部的表达量矩阵,并且格式化保存为了 Rdata 文件。并且批量走了estimate算法,得到了各个样品的基质细胞和免疫细胞的比例的打分值! Continue reading

18

带临床信息的肿瘤突变maf文件分析维度更多

上次我们分享了 指定病人的指定基因的突变全景瀑布图,主要是讲解了maftools这个包的个性化操作,这个教程里面我们仅仅是使用了 TCGA-Clinical Data Resource (CDR) Outcome 文件里面的病人肿瘤类型,其实里面有丰富的临床信息。而带临床信息的肿瘤突变maf文件分析维度更多。 Continue reading

18

都2021了仍然有人转录组走tophat加cufflinks流程

我在2015年逛biostar论坛的时候,看到了这样的表述:

Tophat 首次被发表已经是6年前<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!

当时各路大神就建议大家抛弃传统的tophat加cufflinks流程,毕竟其作者都说它过时了,起码可以替换成为:hisat2+stringtie+ballgown流程啊!

又是六年过去了

还有人跟我讨论tophat加cufflinks流程,让我非常郁闷,而且对方还拿出来了最新文献,是:《The oncogene AAMDC links PI3K-AKT-mTOR signaling with metabolic reprograming in estrogen receptor-positive breast cancer》,链接是:https://www.nature.com/articles/s41467-021-22101-7
整个研究都是围绕 Adipogenesis associated Mth938 domain containing (AAMDC) 这个基因 。里面有转录组测序数据,在 GSE92893 and GSE123740. 可以看到这两个数据其实相差五年:
image-20210808170022686
所以作者自己也是有两套流程,针对早期数据,走tophat加cufflinks流程。但是针对最近的数据,走salmon和DESeq2流程,完全是两码事!
如果你现在还推荐大家使用tophat加cufflinks流程来处理转录组数据,就有点过分了!
如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据,也不要急于嘲讽,有可能是他们的数据本来就是五六年前的,或者给他们服务的公司仍然是使用过时的流程而已。