通常情况下,我们是做正常组和对照组差异分析,或者药物处理前后,这样的分组都是超级简单的。 Continue reading
反其道而行之的马拉松学习
伊始
大家好,我是繁尘杂事(笔名),我是 2020 年 7 月开始接触生信的。当时暑假刚开始,我那会是在做 meta 分析,但是我想做一些原始研究,所以就跟着一位老师暑假留学校里做实 Continue reading
泛癌分析时候的大样本量多分组建议选择tSNE而不是PCA
在前面的教程:居然有如此多种癌症(是时候开启pan-cancer数据挖掘模式),我们把全部的TCGA的33种癌症的表达量矩阵区拆分成为蛋白编码基因和非编码基因这两个不同的表达量矩阵,并且保存成为了rdata文件。 Continue reading
呼朋唤友来讨论学徒作业啦~
熟悉咱们《生信技能树》团队的小伙伴都应该是对我们的学徒作业并不陌生,而且过半数的优秀学徒作业其实就发布在了我们《生信菜鸟团》公众号哦,比如: Continue reading
混合到同一个10X样品里面的多个细胞系如何注释
我们七月份的学徒培养专注于单细胞数据处理,第一个学徒选择的文章很有意思,标题是:《Single-cell transcriptomic heterogeneity in invasive ductal and lobular breast cancer cells》,这个单细胞文章仅仅是单个10X样品,但是测8个细胞系,Number of cells: Continue reading
居然还可以这样欺骗软件
我们的马拉松生物信息学入门课程进入到Linux实战环节,给大家都提供了一个云服务器账号,这样全部的学员都可以登录到我们的服务器里面方便沟通和交流。授课进行到conda安装和管理生物信息学软件,首先在自己的服务器上面安装conda,安装方法代码如下: Continue reading
浸润性导管和小叶乳腺癌细胞的单细胞转录组异质性
今天介绍的文章是2021年1月发表在cancer research杂志 : 《Single-Cell Transcriptomic Heterogeneity in Invasive Ductal and Lobular Breast Cancer Cells》,链接是 https://pubmed.ncbi.nlm.nih.gov/33148662/ Continue reading
居然可以把rpkm这样的归一化并且带小数点的转录组表达量矩阵直接取整
我们以前分享过:GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序,但是呢,RNA-seq测序数据并不会把其表达矩阵存储在Series Matrix File(s) 里面,所以 你使用我的标准代码: Continue reading
可以使用Aspera从CNGBdb数据库高速下载fastq测序数据啦
以前在《生信技能树》(才发现居然已经是 2019-08-22的事情了)我们介绍过中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库GSA (Genome Sequence Archive):[不止是NCBI的SRA可以下载测序数据] Continue reading
课程推荐-北京大学生物信息学
前面我们在生信技能树分享了:中国大学MOOC的生物信息学公开课之河南科技大学 ,然后在生信菜鸟团分享了:[中国大学MOOC的生物信息学之华中农业大学] Continue reading
不同癌症内部按照estimate的两个打分值高低分组看蛋白编码基因表达量差异
前面的教程 不同癌症的差异难道大于其与正常对照差异吗,以及 大样本量多分组表达量矩阵分析你难道没想到单细胞吗,我们认识了TCGA数据库的33种癌症的全部的表达量矩阵,并且格式化保存为了 Rdata 文件。并且批量走了estimate算法,得到了各个样品的基质细胞和免疫细胞的比例的打分值! Continue reading
不知道细胞亚群的生物学功能?clusterProfiler来帮你
最近七月份学徒们在集中做单细胞联系,其中一个学徒很不幸,拿到了单个10x样品的项目,纯粹的就是一个普通的黑色素瘤细胞系的测序,四千多个细胞而已。理论上是非常的均一,没办法跟以前的肿瘤研究的单细胞数据的第一次分群的通用规则: Continue reading
创造示例数据并且同步讲解绘图技巧的资源推荐
大家应该是看过了无数R绘图技巧代码,各种R包介绍。我们基本上不写这方面,主要是因为早就过了需要美图引流的阶段,分享自己实践过程的真实代码经验比一味地翻译画图博客和文档好很多。 Continue reading
你是喜欢错落有致还是竖立排列
最近遇到了很烦人的事情,就是一口气做了三百多个单细胞转录组项目(主要是GEO上面的),然后代码一直在修正和完善,尤其是可视化。并不是说自己要创造什么炫酷的可视化方式,以前我们做了一个投票:[可视化单细胞亚群的标记基因的5个方法] Continue reading
大鼠单细胞标记基因特异性咋样
在单细胞交流群看到有小伙伴分享了文献:《Caloric Restriction Reprograms the Single-Cell Transcriptional Landscape of Rattus Norvegicus Aging》这个里面的单细胞研究整理了常见的大鼠这个物种的单细胞亚群的标记基因,列表如下: Continue reading
大样本量多分组表达量矩阵分析你难道没想到单细胞吗?
前面我们演示了:泛癌分析时候的大样本量多分组建议选择tSNE而不是PCA,整合全部的33种癌症的仅仅是蛋白质编码基因的表达量矩阵,进行降维聚类分群可以看到并不是严格的各个癌症泾渭分明。 Continue reading
带临床信息的肿瘤突变maf文件分析维度更多
上次我们分享了 指定病人的指定基因的突变全景瀑布图,主要是讲解了maftools这个包的个性化操作,这个教程里面我们仅仅是使用了 TCGA-Clinical Data Resource (CDR) Outcome 文件里面的病人肿瘤类型,其实里面有丰富的临床信息。而带临床信息的肿瘤突变maf文件分析维度更多。 Continue reading
蛋白质互作关系(PPI)数据库你还在使用string吗?
- 蛋白质互作网络(Protein-Protein Interaction Networks,PPI)是由蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。 Continue reading
都2021了仍然有人转录组走tophat加cufflinks流程
我在2015年逛biostar论坛的时候,看到了这样的表述:
Tophat 首次被发表已经是6年前<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!
当时各路大神就建议大家抛弃传统的tophat加cufflinks流程,毕竟其作者都说它过时了,起码可以替换成为:hisat2+stringtie+ballgown流程啊!
又是六年过去了
还有人跟我讨论tophat加cufflinks流程,让我非常郁闷,而且对方还拿出来了最新文献,是:《The oncogene AAMDC links PI3K-AKT-mTOR signaling with metabolic reprograming in estrogen receptor-positive breast cancer》,链接是:https://www.nature.com/articles/s41467-021-22101-7
整个研究都是围绕 Adipogenesis associated Mth938 domain containing (AAMDC) 这个基因 。里面有转录组测序数据,在 GSE92893 and GSE123740. 可以看到这两个数据其实相差五年:
所以作者自己也是有两套流程,针对早期数据,走tophat加cufflinks流程。但是针对最近的数据,走salmon和DESeq2流程,完全是两码事!
如果你现在还推荐大家使用tophat加cufflinks流程来处理转录组数据,就有点过分了!
如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据,也不要急于嘲讽,有可能是他们的数据本来就是五六年前的,或者给他们服务的公司仍然是使用过时的流程而已。
多次差异分析难道就需要多个火山图吗?
差异分析,大家都喜欢两个分组的比较,但实际科研项目,往往是比这复杂,多达十几个甚至几十个分组也不稀奇。昨天的教程:多分组的差异分析只需要合理设置design矩阵即可,我们展示了无论多少个分组,都可以很方便的进行差异分析。 Continue reading