18

TCGA和METABRIC的TNBC病人数量到底是多少

因为自己博士课题是关于乳腺癌肿瘤异质性的研究,所以对这个癌症的背景知识稍微多一点。顺理成章的我出的大量学徒作业也是关于乳腺癌的,其中乳腺癌里面最恶性的就是TNBC,或者说三阴性乳腺癌啦。看到了不下50篇TNBC相关数据挖掘文章,基本上都是TCGA或者METABRIC数据库啦,但是不同文章对TNBC定义有冲突,而且样本数量都不一致,​很是尴尬!​ Continue reading

20

oligo包可以处理agilent芯片吗

在文献 J Natl Cancer Inst. 2018 Jul ;题目是:Intratumor Heterogeneity of the Estrogen Receptor and the Long-term Risk of Fatal Breast Cancer,看到该研究使用的是agilent表达芯片,老实说我其实不太喜欢这个公司的芯片,从数据分析的角度来说,因为其R包非常少。不过作为生信技能树,我们不得不全面建设不同类型数据分析流程,所以还是硬着头皮啃一下这个数据分析: Continue reading

20

M3Drop用法的修改

两年前我们介绍的用米氏方程解决单细胞转录组dropout现象的文章提出的那个算法,被包装到了R包,是:M3Drop ,文章最开始 2017年发表在biorxiv的是:Modelling dropouts for feature selection in scRNASeq experiments 后来(2019)published in Bioinformatics doi: 10.1093/bioinformatics/bty1044 ,而且整个包的使用方法发生了变化,值得记录和分享一下。 Continue reading

20

lncRNA芯片的探针到底该如何注释到基因组信息呢

昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了。但是部分粉丝提出了更过分的要求,说自己没有服务器,我以前的教程:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 他们跟随起来很困难,希望我随便把所有的gpl也注释一波提供给大家。 Continue reading

20

infercnv输入文件的制作

有粉丝反映跟着我们的教程:使用inferCNV分析单细胞转录组中拷贝数变异 ,但是第一步3个输入文件就制作失败,值得单独写教程强调一下这个解决方案。当然了,如果你还卡在第一步安装R包,请看我昨天在生信菜鸟团的教程:有些R包是你的电脑操作系统缺东西,但也有一些不是 。然后就可以查看https://github.com/broadinstitute/inferCNV/wiki 的示例代码: Continue reading

20

GSVA或者GSEA各种算法都是可以自定义基因集的

表达矩阵的标准分析通常是不够的,定位到成百上千个有统计学显著变化的差异表达基因后,同样是可以有成百上千个生物学功能注释(最出名的是GO功能和KEGG通路),普通的超几何分布检验已经不能满足大家多元化的分析了,所以就有了大家耳熟能详的GSEA分析,以及绝大部分人比较陌生的GSVA分析。 Continue reading