教程:CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,我提到过肿瘤单细胞转录组数据的第一次分群规则是 :
Continue reading
什么时候细胞周期的分类作用大于细胞类型呢
众所周知,在肿瘤单细胞数据里面,对恶性细胞来说,病人的分类作用是远大于细胞类型的,不过其实肿瘤恶性细胞也说不出什么确切的细胞类型,目前仅仅是根据TCGA的bulk转录组数据进行分子分型。但是对免疫细胞或者其它并不恶性的单细胞来说呢,细胞类型的作用是远大于病人的个体异质性的。如下所示:
Continue reading
为何要劳民伤财做同样的数据
文章《BRCA1 Promoter Methylation Status in 1031 Primary Breast Cancers Predicts Favorable Outcomes Following Chemotherapy》,链接是:https://academic.oup.com/jncics/article/4/2/pkz100/5673392 我看到文章里面提到了乳腺癌患者的1031 primary tumors的测序数据,下意识的以为是一个TCGA数据库挖掘。
突变全景图不会优化,看看CoMutPlotter
CoMutPlotter这个网页工具与2019年7月发表在 BMC Medical Genomics 杂志,文章标题是;《CoMutPlotter: a web tool for visual summary of mutations in cancer cohorts》选自第八届转化生物信息学会议: 医学基因组学,研究者是台湾长庚大学的。
送苹果我们是认真的
去年我写了一个推文:发nature communications了不起吗 引起了不少读者的共鸣,揭露出来了社会一个比较普遍的现象,稍有成果就颐气指使,而且缺乏感恩的心态。中间的故事我补一下,那个人当初加好友的时候可劲的问问题,就各种低声下气的扮可怜,问题解决了也不会有一个谢谢,下次再遇到问题就又一个轮回。发文章了也没看到感谢,居然还好意思要求我帮忙宣传!
Continue reading
双层list变成长形数据框
绘图需求最大的难关往往是数据整理,比如下面的双层list:
使用curatedTCGAData下载TCGA数据库信息好用吗
好久没有写TCGA数据库教程了,因为TCGA计划早在2017年就陆陆续续停止了,我那个时候写了几百个教程并且录制了视频。
- 我三年前的TCGA教学视频课程B站地址:https://www.bilibili.com/video/av49363776
- 售后文档记录 https://docs.qq.com/doc/DYkVzUmZLWlhRRXVz 请先通读文档后再发问
- 我这边备份的TCGA数据来源于xena,ucsc的,都在,https://share.weiyun.com/5zLnKmO
使用AUCell包的AUCell_calcAUC函数计算每个细胞的每个基因集的活性程度
为了让教程具有较好的可重复性,我们直接使用 http://bioconductor.org/packages/release/bioc/html/AUCell.html 的案例即可。
圣诞节元旦节有十几天假期可以接收礼品以及预约午餐
陆陆续续总有一些粉丝寄送礼品给我,有苹果,橘子,橙子,冬枣,猕猴桃(东红),牛肉干等等,可以看到是水果居多,但是我工作日的五天都不在大陆,周六日两天拼命吃也没办法消化掉大家满满的一箱。
Continue reading
生物信息学流程框架的4个流派
看到一个大师级综述:Jeremy Leipzig, A review of bioinformatic pipeline frameworks, Briefings in Bioinformatics, Volume 18, Issue 3, May 2017, Pages 530–536, https://doi.org/10.1093/bib/bbw020 值得推荐,非常好的整理了目前生物信息学界的各个NGS数据处理的流程搭建策略。主要是下面的4种:
Continue reading
让你的基因有名字
凭什么定位到UBR5基因
看到于2017年发表在Cancer Res 杂志的文章;E3 Ubiquitin Ligase UBR5 Drives the Growth and Metastasis of Triple-Negative Breast Cancer. 做的是肿瘤外显子数据,最后是: An analysis of primary TNBC specimen by whole-exon sequencing revealed strong gene amplifications of UBR5 associated with the disease.
Continue reading
排序
两个月前的一个学徒作业:绘图本身很简单但是获取数据很难,完成率超级低,仅仅接到了不到十个邮件,而且有3个人做的是错的!!超级尴尬,其中有一个错误很明显,就是自以为是的排序,然后比对肿瘤组织和配对的正常组织的表达量,其实呢,排序错误会导致配对失败。
你还缺乳腺癌表达量数据集吗
生存分析你还是在TCGA吗?
最近有粉丝求助说他研究乳腺癌做了单细胞转录组数据,定位到了一个稀有细胞亚群,先看它感兴趣的亚群细胞特异性基因的临床意义,问我有没有除了TCGA数据库之外的其它数据库资源推荐。恰好我做这方面就顺手检索了一下,发现了 curatedBreastData 包,值得推荐!
没有什么基因芯片的探针是不能注释的
最近收到读者求助,说他感兴趣的表达量芯片数据集用到的的芯片是:[HT_HG-U133_Plus_PM] Affymetrix HT HG-U133+ PM Array Plate ,看起来跟我们授课的 hg133plus2比较类似。
临床遗传学高峰论坛(真正的凡尔赛)
朋友圈看到不少人在转发临床遗传学高峰论坛,不过我猜测
Continue reading
今天讨论新冠病毒明天讨论单细胞
在朋友圈看到了一个2020年6月发表在Nature Medicine的单细胞TCR测序结合单细胞测序,研究新冠病人免疫图谱的文章,蛮有意思的。作者用单细胞转录组测序技术对不同程度的新冠患者(3例中度感染患者、6例重度感染患者)和健康对照组(3例)的支气管肺泡灌洗液(BALF)免疫细胞进行了鉴定。最后获得31个不同的cluster,比如,巨噬细胞,中性粒细胞、髓样树突状细胞、浆状树突细胞、NK细胞、血浆细胞、上皮细胞、T细胞、B细胞等。比较了健康人、中毒感染患者、重度感染患者的细胞数目差异以及差异表达基因,分析新冠肺炎患者肺泡灌洗液中的免疫图谱。
Continue reading
基因集的转录因子富集分析
一般来说,大家拿到了感兴趣的基因集后,通常是做超几何分布检验看看富集到了什么生物学功能数据库,比如KEGG或者GO数据库,或者走gsea/gsva这样的富集分析,也是注释生物学功能数据库。 大家读我的表达芯片的公共数据库挖掘系列推文应该是够多了:
画韦恩图那么容易为什么拿到基因集却有问题
学员交流群有提问,说他虽然会绘制韦恩图了,但是想提取图中指定的元素,自己弄的代码非常笨拙,感觉是R语言学的不够好,希望我可以秀一秀高阶代码。恰好今天没有什么可以分享的,就写这个教程吧!
函数冲突报错就完了吗
一个星期前我指出来了R语言包开发的一个现象:R语言的繁荣背后何尝没有隐患,很多函数名字被多个R包使用,这样就出现了冲突,所以我们需要显示调用具体的某个R包的某个函数。
恰好被隔壁Y叔看到了,所以立马给出来了解决方案,在听说你用的函数又撞名了? 可以看到conflicted
包超级好用,专门盯着你,让你报错!