看到了Wang et al. Cell Discovery (2022)的文章:《Single-cell dissection of remodeled inflammatory ecosystem in primary and metastatic gallbladder carcinoma》里面提到了: A small amount of PLA2G2A epithelial cells with copy number variation were identified from a histologically benign sample.
蛮有意思的,这个上皮细胞的特性是高表达PLA2G2A基因,但是它来源于非肿瘤组织,而且它居然是有拷贝数变异的!如下所示: Continue reading
并不需要得到去批次后的表达量矩阵
去批次这个分析在我们组学数据分析领域非常常见, 可以提高数据质量,确保分析结果的准确性和可靠性。然而,去批次效应并不总是完美的,需要结合具体的数据特点和生物学背景,选择合适的方法,并进行仔细的验证和解释。
“去批次效应”(batch effect removal)这个步骤主要是: Continue reading
比较两种不同算法的表达量矩阵的差异分析结果
前面我们视频号直播了一个表达量芯片数据处理,详见:这样去除表达量芯片的批次效应可能不妥,这个物信息学数据挖掘的标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,直播回放的视频在:
我们分享了一个案例,就是GSE30122这个数据集的作者给出来的表达量矩阵是被zscore的,所以我们可以下载它的cel文件自己制作表达量矩阵,详见: Continue reading
SCTransform真的能完美替代Seurat早期的3个函数吗
在Seurat的官网可以看到SCTransform关于的描述,是:Note that this single command replaces NormalizeData(), ScaleData(), and FindVariableFeatures()
但是因为我接触单细胞有点早,是2017附近,那个时候经历了Seurat的v2变成v3的大更新,跟现在的小伙伴们经历了v4变成v5是一样的困扰,所以其实我从来就没有在我的代码里面做SCTransform,因为早期的 NormalizeData(), ScaleData(), FindVariableFeatures()三个函数,使用的也挺好的。但是最近学徒表示他发现了这里面的细节差异而且百思不得其解,所以我归纳汇总了一些学徒的探索,让大家一起看看是咋回事! Continue reading
monocle2拟时序实战细节剖析
前面我们提到了目前绝大部分单细胞转录组数据分析相关文章都不约而同的使用了monocle2这个软件来做拟时序分析,但是并不意味着它是金标准,也不意味着非monocle2不可。
这个纯粹就是生物信息学领域的“马太效应”,大家都用monocle2做拟时序,所以后来者就简单的追随即可,而且绝大部分人其实并不关心算法细节,仅仅是为了做拟时序而做,那么就无所谓选择哪个软件了。我们也简单的展示了目前的可以做拟时序分析的软件的测评,详见:拟时序的多种算法大比拼(拟时序一本通03) 。但是,测评归测评,最终大家还是得使用monocle2做拟时序分析,所以不得不把重点放它的细节剖析上面,我们后面也会介绍一下其它软件和方法: Continue reading
find加上exec的参数来批量修改文件名字
需求:一个单细胞转录组项目文件夹里面的每个样品都是独立的文件夹,而且每个文件夹里面的都有一个genes.tsv.gz
文件,是需要修改为 features.tsv.gz
文件名字的!
10x的文件格式
目前10x的单细胞转录组技术给出来的表达量矩阵,主要是Market Exchange Format (MEX)格式,每个样品都会有一个filtered_feature_bc_matrix文件夹,里面会有3个文件,如下所示: Continue reading
bioconductor有新的镜像选择啦
我的电脑里面有一千多个生物信息学多组学数据处理相关的r包,最近三五年基本上没有怎么安装过新的包,但是最近在一个新电脑里面进行视频号直播的时候发现下面的代码读取cel文件格式的affymetrix表达量芯片的时候其实是会自动安装一个包: Continue reading
Affymetrix的表达量芯片的cel文件如何处理
前面我们视频号直播了一个表达量芯片数据处理,详见:这样去除表达量芯片的批次效应可能不妥,这个物信息学数据挖掘的标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,直播回放的视频在: Continue reading
10x技术空间单细胞上游定量案例分享(E-MTAB-12043)
前面我们已经分享过一次10x技术空间单细胞上游定量案例,详见: 空间单细胞的上游定量流程(spaceranger,10x技术), 不过这样的分析理论上需要跑四五次才能算是完全掌握。所以我们接下来分享E-MTAB-12043数据集的: Continue reading
10x技术单细胞转录组上游定量案例分享(E-MTAB-11940)
9个小鼠分成3组后取36个样品做转录组测序可以做多少组合的差异分析
转录组测序后差异分析大家应该是都不陌生了,现在的生命科学领域的研究如果不加入一个转录组都会让人很奇怪,慢慢的它的地位开始赶上传统的PCR(聚合酶链反应)或者Western Blot(WB,蛋白质印迹)等技术。
如果一个转录组测序项目只有两个分组,那么简单的单次差异分析即可。但是如果有3分组就麻烦了,简单的理解就是两个处理组去和一个对照组差异,然后这两次差异分析的结果可以去对比一下,比如取交集。如下所示的案例: Continue reading
表型性状特异性单细胞亚群
看到了2022的一个单细胞文章:《Single-Cell RNA Sequencing Reveals the Temporal Diversity and Dynamics of Cardiac Immunity after Myocardial Infarction》,里面有表型性状特异性单细胞亚群的概念,详见:Characterization of MI Contribution in Different Macrophage Subsets,需要同时考虑伴随表型变化的单细胞亚群数量以及表达量差异,看起来是蛮复杂的数学公式,如下所示: Continue reading
表达量是否有差异你说了算
有小伙伴在交流群问:自己的目标基因在做完表达量差异分析后发现它并不在上下调列表里面,感觉有点惶恐,如果是真实现象,那么: Continue reading
癌症细胞系模型里面有肿瘤免疫微环境吗
众所周知,实验室培养的癌症细胞系肯定是非常纯粹的恶性增殖的肿瘤细胞啦。
它被人诟病的一个缺点就是没办法代表真实的肿瘤病人的肿瘤部位的微环境,既然它缺失了肿瘤微环境,如果你测肿瘤细胞系培养物(药物处理前后)的单细胞转录组,就没办法follow我们分享的绝大部分的肿瘤领域的单细胞转录组的第一层次降维聚类分群以及生物学命名,详见之前的介绍 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则, 是 : Continue reading
R语言里面如何高效开发R包
出版社送了一本书(R语言)给我,这个《R语言实战》已经是R语言领域的“老兵”了,几乎是人手一本,目前是第三版,更新也很大,全面拥抱了ggplot体系。对我来说,比较新的知识点可能是一些小技巧,这里借花献佛给大家。 Continue reading
R语言里面如何高效调试代码
出版社送了一本书(R语言)给我,就是这个《R语言实战》第三版,它已经是R语言领域的“老兵”了,几乎是人手一本。
新鲜出炉的第三版,更新也很大,全面拥抱了ggplot体系。对我来说,比较新的知识点可能是一些小技巧,这里借花献佛给大家。 Continue reading
R语言里面如何高效编程
出版社送了一本书(R语言)给我,就是这个《R语言实战》第三版,它已经是R语言领域的“老兵”了,几乎是人手一本。
新鲜出炉的第三版,更新也很大,全面拥抱了ggplot体系。对我来说,比较新的知识点可能是一些小技巧,这里借花献佛给大家。 Continue reading
R语言里面的文本文件操作技巧合辑
偏底层的函数
常规需求是文本文件交互,比如 文件打开、文件写入、文件内容刷新等等,如果默认的文件没有规则仅仅是里面有内容,就需要使用比较底层的函数:
- 打开文件:你可以使用
file()
函数来打开一个文件。这个函数会返回一个连接,你可以通过这个连接来读取或写入文件。例如: Continue reading
R语言基础函数没有排序后取前面几个的功能函数top
R语言基础函数很多都是超级简单的英文单词,以下是一些R语言中基础函数的简单英文单词举例:
- print():打印输出结果。
- sum():计算向量或矩阵中元素的总和。
- mean():计算向量或矩阵中元素的平均值。
- max():找出向量或矩阵中的最大值。
- min():找出向量或矩阵中的最小值。
- length():计算向量中元素的个数。
- sqrt():计算数值的平方根。
- round():将数值四舍五入到指定的小数位数。
- sort():对向量或矩阵进行排序。
- unique():返回向量中的唯一元素。 Continue reading
PRJNA815461
学员给了一个2023的单细胞文章:《Single-cell RNA sequencing reveals a mechanism underlying the susceptibility of the left atrial appendage to intracardiac thrombogenesis during atrial fibrillation》里面的单细胞转录组数据集仅仅是公开了数据集的fastq文件,并没有表达量矩阵。我们就顺手下载并且处理了。
首先需要参考 小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码),走cellranger流程,主要是拿到服务器后配置自己的conda环境,以及下载项目对应的单细胞转录组数据集的fastq文件,如下所示: Continue reading