也许时间是一切问题的答案。
《自然》杂志2014年10月评出的最重要的100篇论文,引用率最高的三篇统计学论文分别是: Continue reading
准考证号,身份证号码,TCGA样本条形码的区别
TCGA教程足够多了,有学员不理解TCGA样本编号问题,所以一个简单的比喻来阐述一下。
准考证号
这个大家从小就接触过,这里以四六级准考证号码解析为例,四六级准考证号一共由15位组成(如下图) Continue reading
肿瘤基因列表
大家自己的课题如果聚焦到了某些基因,通常是想看看它们是否是肿瘤相关基因,比如肿瘤驱动基因,抑癌基因等等,这里主要是: oncoKB和CCG的list
OncoKB Cancer Gene List OncoKB Cancer Gene List Cancer Gene List. 1039 genes Continue reading
中山大学有钱却没有人
中山大学幸福的烦恼 Continue reading
在R语言里面apply和for还是有区别的
最近整理我GitHub代码,发现了之前一个批量生存分析代码是有问题的,因为不同基因表达量分组后,没有道理所有基因出图的P值不变,更诡异的是,lapply内部变量不识别,一定要外部变量。
为了给大家讲清楚这个故事,我创造了测试数据和代码,你们可以打开电脑的R语言开始表演啦! Continue reading
一个矩阵除以向量会发生什么
在做表达矩阵的counts值作为RPKM的时候发现的这个知识点细节问题, 因为矩阵需要每一个样本除以它各自的文库大小,然后呢,每个基因又需要除以各自的基因长度。
所以呢,我们的表达矩阵,其实是需要除以两个长度不一的向量,而且方向不一样,一个是按照行来除以,一个是按照列来除以,我最后写的代码是: Continue reading
我的基因集数量不对啊
今天单细胞授课现场差点翻车,最后做完几个基因集的批量超几何分布检验,想现场解释一波这个富集分析结果的一些数字,如下:
Continue reading
为什么salmon流程不同软件版本不同参考转录组得到的表达矩阵差异很大
给学徒布置任务,根据我的教程使用salmon流程走一波airway这个转录组数据集,很快就出了结果,为了检查他数据处理的结果准确性,就把我两年前跑的结果给到他,然后让比较一下两个表达矩阵的相关性,结果出乎我意料! Continue reading
公共数据库告诉你为什么在癌症里面研究CD24
免疫检查点抑制剂是现在临床和科研热点,其中免疫检查点基因通过双信号机制调控肿瘤微环境中最主要的免疫细胞,T淋巴细胞的免疫应答活性而发挥作用。这些分子主要分为两类:
- 一类是免疫球蛋白(immune globulin, Ig)超家族
- 另一类是肿瘤坏死因子(tumor necrosis factor,TNF)配体/受体对。 Continue reading
为什么我一行代码就可以完成3个R包的RNA-seq差异分析呢
在教师节收到学生的提问,刷我B站74小时视频的时候看到我演示了RNA-seq差异分析只用了一行代码就完成了3大R包的全部分析,并且输出了对应的图表结果,觉得很神奇,但是B站视频并没有配套讲义和代码还有测试数据。 Continue reading
外国的生信技能树转录组教程
同样是写教程,特别羡慕英语为母语国家的知识分享者,写出来的教程很容易变成SCI文章,比如我一直大力推崇的Griffith两兄弟(Obi and Malachi Griffith),他们就把转录组数据处理教程发表了: Obi L. Griffith . 2015. Informatics for RNA-seq: A web resource for analysis on the cloud. PLoS Comp Biol. 而且一直在持续更新! Continue reading
听说aspera下载会失败
在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟爬行就快那么一点点,所以不得不求助IBM的aspera加速器。
首先下载软件
老规矩,conda解决一切依赖 Continue reading
双重高斯分布拟合
高斯分布在自然界非常常见,中心极限定理很好的说明了它,但事情往往不是那么地纯粹,很多时候我们得到的结果里面会混入两个截然不同的样本数据集,虽然它们各自都是高斯分布,但是它们的均值和方差都不一样,如果拿到的是它们的混合数据,就不能简单的使用一个高斯拟合来处理它了。 Continue reading
使用SNFtool包整合多组学数据进行病人分组
大家都喜欢整合多组学数据,实际上目前大多数研究都是拿其中一种组学数据来对样本进行分类,然后查看病人分组后另外一种组学的差异情况。再其次,就是整合多组学数据对样本统一分组。
案例介绍
看到文章 Integrative analysis of the inter-tumoral heterogeneity of triple-negative breast cancer 针对137个TNBC病人的3种数据,进行挑选后,各自进入NMF聚类:
Continue reading
使用scran包的MNN算法来去除多个单细胞转录组数据批次效应
多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个单细胞转录组样本的数据整合之CCA-Seurat包 Continue reading
使用R包下载TCGA全部癌症的somatic突变信息
半年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它) 还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全 Continue reading
使用bowtie2和samblaster一步到位的干净比对
bowtie2
以前都是和samtools组合,如下:
bowtie2 -x $index -U $id | samtools sort -@ 4 -o $sample.bam -
运行速度很慢,现在有高效工具啦,比如sambamba主要有filter,merge,slice和duplicate等七个功能来处理sam/bam文件,几乎可以替代 samtools啦,不过,这里要着重介绍的是samblaster Continue reading
生信技能树超级VIP入场券发放
生信技能树超级VIP入场券发放(人民币一万起)
作为全网第一个全栈生信工程师,史上最大中文生物信息学交流社区-生信技能树联盟的创始人- Jimmy, 在这里第二次郑重宣布: 招学徒!
学徒培养模式已经走过了一个年头,期间约20名学徒成功出师: Continue reading
生信分析人员如何系统入门R(2019更新版)
五年前作为一个初出茅庐的菜鸟生信工程师苦于没有专业交流社群,遂自建了生信菜鸟团QQ群和博客,一点一滴积累了数万人气,进而和若干圈内好友组建了生信技能树联盟,三年前的直播生物信息学编程活动细节还历历在目,QQ群微信群记账录制视频忙的不亦乐乎,因此产生了编程语言系统入门系列教程,如下: Continue reading
生信分析人员如何系统入门Linux(2019更新版)
前面我更新了针对生信工程师R语言入门指南,见:生信分析人员如何系统入门R(2019更新版) ,广受好评,反响热烈,趁热打铁我应该把剩余的3个知识点也认真系统更新一下,恰好昨天授课讲解的就是linux学习路线图! Continue reading