基因集富集分析(Gene Set Enrichment Analysis,简称GSEA)是一种用来确定一个预先定义的基因集是否在某种生物学状态下(比如疾病状态)表达水平有显著变化的方法。
这种方法不仅关注单个基因是否表达差异,而且关注一整组基因的表达模式,从而揭示背后的生物学过程或通路。它需要有下面的步骤: Continue reading
基因集富集分析(Gene Set Enrichment Analysis,简称GSEA)是一种用来确定一个预先定义的基因集是否在某种生物学状态下(比如疾病状态)表达水平有显著变化的方法。
这种方法不仅关注单个基因是否表达差异,而且关注一整组基因的表达模式,从而揭示背后的生物学过程或通路。它需要有下面的步骤: Continue reading
前面我们分享了在单细胞转录组降维聚类分群的第一层次降维聚类分群后的,每个单细胞亚群细分的时候,是有 单细胞亚群的生物学命名的4个规则,如下所示 : Continue reading
文献里面提到了一个表达量矩阵数据集的两个可能的误差来源,首先是该队列样品收集就耗费了四年所以有批次效应,其次队列里面的性别失衡,这两个问题都是需要解决的。所以研究者们采用了ANOVA model 很严谨的去判别差异基因,方法学如下所示: Continue reading
最近在梳理类器官领域的单细胞研究,发现了2024的文章:《Single-cell transcriptome profiling of primary tumors and paired organoids of pancreatobiliary cancer》,数据集在:GSE214295 (PRJNA885258) Continue reading
看到了Wang et al. Cell Discovery (2022)的文章:《Single-cell dissection of remodeled inflammatory ecosystem in primary and metastatic gallbladder carcinoma》里面提到了: A small amount of PLA2G2A epithelial cells with copy number variation were identified from a histologically benign sample.
蛮有意思的,这个上皮细胞的特性是高表达PLA2G2A基因,但是它来源于非肿瘤组织,而且它居然是有拷贝数变异的!如下所示: Continue reading
去批次这个分析在我们组学数据分析领域非常常见, 可以提高数据质量,确保分析结果的准确性和可靠性。然而,去批次效应并不总是完美的,需要结合具体的数据特点和生物学背景,选择合适的方法,并进行仔细的验证和解释。
“去批次效应”(batch effect removal)这个步骤主要是: Continue reading
前面我们视频号直播了一个表达量芯片数据处理,详见:这样去除表达量芯片的批次效应可能不妥,这个物信息学数据挖掘的标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,直播回放的视频在:
我们分享了一个案例,就是GSE30122这个数据集的作者给出来的表达量矩阵是被zscore的,所以我们可以下载它的cel文件自己制作表达量矩阵,详见: Continue reading
在Seurat的官网可以看到SCTransform关于的描述,是:Note that this single command replaces NormalizeData(), ScaleData(), and FindVariableFeatures()
但是因为我接触单细胞有点早,是2017附近,那个时候经历了Seurat的v2变成v3的大更新,跟现在的小伙伴们经历了v4变成v5是一样的困扰,所以其实我从来就没有在我的代码里面做SCTransform,因为早期的 NormalizeData(), ScaleData(), FindVariableFeatures()三个函数,使用的也挺好的。但是最近学徒表示他发现了这里面的细节差异而且百思不得其解,所以我归纳汇总了一些学徒的探索,让大家一起看看是咋回事! Continue reading
前面我们提到了目前绝大部分单细胞转录组数据分析相关文章都不约而同的使用了monocle2这个软件来做拟时序分析,但是并不意味着它是金标准,也不意味着非monocle2不可。
这个纯粹就是生物信息学领域的“马太效应”,大家都用monocle2做拟时序,所以后来者就简单的追随即可,而且绝大部分人其实并不关心算法细节,仅仅是为了做拟时序而做,那么就无所谓选择哪个软件了。我们也简单的展示了目前的可以做拟时序分析的软件的测评,详见:拟时序的多种算法大比拼(拟时序一本通03) 。但是,测评归测评,最终大家还是得使用monocle2做拟时序分析,所以不得不把重点放它的细节剖析上面,我们后面也会介绍一下其它软件和方法: Continue reading
需求:一个单细胞转录组项目文件夹里面的每个样品都是独立的文件夹,而且每个文件夹里面的都有一个genes.tsv.gz
文件,是需要修改为 features.tsv.gz
文件名字的!
目前10x的单细胞转录组技术给出来的表达量矩阵,主要是Market Exchange Format (MEX)格式,每个样品都会有一个filtered_feature_bc_matrix文件夹,里面会有3个文件,如下所示: Continue reading
我的电脑里面有一千多个生物信息学多组学数据处理相关的r包,最近三五年基本上没有怎么安装过新的包,但是最近在一个新电脑里面进行视频号直播的时候发现下面的代码读取cel文件格式的affymetrix表达量芯片的时候其实是会自动安装一个包: Continue reading