前面的教程 不同癌症的差异难道大于其与正常对照差异吗,以及 大样本量多分组表达量矩阵分析你难道没想到单细胞吗,我们认识了TCGA数据库的33种癌症的全部的表达量矩阵,并且格式化保存为了 Rdata 文件。并且批量走了estimate算法,得到了各个样品的基质细胞和免疫细胞的比例的打分值! Continue reading
Monthly Archives: 9月 2021
不知道细胞亚群的生物学功能?clusterProfiler来帮你
最近七月份学徒们在集中做单细胞联系,其中一个学徒很不幸,拿到了单个10x样品的项目,纯粹的就是一个普通的黑色素瘤细胞系的测序,四千多个细胞而已。理论上是非常的均一,没办法跟以前的肿瘤研究的单细胞数据的第一次分群的通用规则: Continue reading
创造示例数据并且同步讲解绘图技巧的资源推荐
大家应该是看过了无数R绘图技巧代码,各种R包介绍。我们基本上不写这方面,主要是因为早就过了需要美图引流的阶段,分享自己实践过程的真实代码经验比一味地翻译画图博客和文档好很多。 Continue reading
你是喜欢错落有致还是竖立排列
最近遇到了很烦人的事情,就是一口气做了三百多个单细胞转录组项目(主要是GEO上面的),然后代码一直在修正和完善,尤其是可视化。并不是说自己要创造什么炫酷的可视化方式,以前我们做了一个投票:[可视化单细胞亚群的标记基因的5个方法] Continue reading
大鼠单细胞标记基因特异性咋样
在单细胞交流群看到有小伙伴分享了文献:《Caloric Restriction Reprograms the Single-Cell Transcriptional Landscape of Rattus Norvegicus Aging》这个里面的单细胞研究整理了常见的大鼠这个物种的单细胞亚群的标记基因,列表如下: Continue reading
大样本量多分组表达量矩阵分析你难道没想到单细胞吗?
前面我们演示了:泛癌分析时候的大样本量多分组建议选择tSNE而不是PCA,整合全部的33种癌症的仅仅是蛋白质编码基因的表达量矩阵,进行降维聚类分群可以看到并不是严格的各个癌症泾渭分明。 Continue reading
带临床信息的肿瘤突变maf文件分析维度更多
上次我们分享了 指定病人的指定基因的突变全景瀑布图,主要是讲解了maftools这个包的个性化操作,这个教程里面我们仅仅是使用了 TCGA-Clinical Data Resource (CDR) Outcome 文件里面的病人肿瘤类型,其实里面有丰富的临床信息。而带临床信息的肿瘤突变maf文件分析维度更多。 Continue reading
蛋白质互作关系(PPI)数据库你还在使用string吗?
- 蛋白质互作网络(Protein-Protein Interaction Networks,PPI)是由蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。 Continue reading
都2021了仍然有人转录组走tophat加cufflinks流程
我在2015年逛biostar论坛的时候,看到了这样的表述:
Tophat 首次被发表已经是6年前<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="">
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!
当时各路大神就建议大家抛弃传统的tophat加cufflinks流程,毕竟其作者都说它过时了,起码可以替换成为:hisat2+stringtie+ballgown流程啊!
又是六年过去了
还有人跟我讨论tophat加cufflinks流程,让我非常郁闷,而且对方还拿出来了最新文献,是:《The oncogene AAMDC links PI3K-AKT-mTOR signaling with metabolic reprograming in estrogen receptor-positive breast cancer》,链接是:https://www.nature.com/articles/s41467-021-22101-7
整个研究都是围绕 Adipogenesis associated Mth938 domain containing (AAMDC) 这个基因 。里面有转录组测序数据,在 GSE92893 and GSE123740. 可以看到这两个数据其实相差五年:
所以作者自己也是有两套流程,针对早期数据,走tophat加cufflinks流程。但是针对最近的数据,走salmon和DESeq2流程,完全是两码事!
如果你现在还推荐大家使用tophat加cufflinks流程来处理转录组数据,就有点过分了!
如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据,也不要急于嘲讽,有可能是他们的数据本来就是五六年前的,或者给他们服务的公司仍然是使用过时的流程而已。
多次差异分析难道就需要多个火山图吗?
差异分析,大家都喜欢两个分组的比较,但实际科研项目,往往是比这复杂,多达十几个甚至几十个分组也不稀奇。昨天的教程:多分组的差异分析只需要合理设置design矩阵即可,我们展示了无论多少个分组,都可以很方便的进行差异分析。 Continue reading
表达量何须以基因为单位
单细胞转录组下游的降维聚类分群这样的基础操作相信大家应该是都没有问题了,参考前面的例子:人人都能学会的单细胞聚类分群注释 ,只需要你有一个基于基因的表达量矩阵的分析。 Continue reading
不是maf格式的somatic突变数据就没办法读入到maftools了么
疫情期间发布了《肿瘤基因测序数据分析》课程,:
不同癌症的差异难道大于其与正常对照差异吗?
前面的教程:[大样本量多分组表达量矩阵分析你难道没想到单细胞吗](https://mp.weixin.qq.com/s/p2oYAgG-LO9yLGx1r3i9zQ),提到了我们整合全部的33种癌症的仅仅是蛋白质编码基因的表达量矩阵,进行降维聚类分群可以看到并不是严格的各个癌症泾渭分明。而去还别出心裁的引入了单细胞经典seurat流程,进行降维聚类分群。 Continue reading
把单细胞表达量矩阵换一个单位
一般来说单细胞表达量矩阵都是以基因为单位,我们可以很容易走常规的降维聚类分群并且合理的进行生物学命名,比如我们对官方 pbmc3k 例子,跑标准代码: Continue reading
癌症居然有如此多种(是时候开启pan-cancer数据挖掘模式)
看到了交流群有人提问某个癌症,看起来并不是TCGA的33种,我就搜索了一下,找到了 https://www.cancer.gov/types 这个宝藏网页,确实没想到癌症居然这么多种。 Continue reading