23

它想强迫我升级一系列seurat相关的单细胞R包

之前写的很多单细胞笔记都是基于V4版本的Seurat系列包,其中SeuratData 是 R 语言中 Seurat 包提供的一个数据包,旨在为使用 Seurat 进行单细胞RNA测序分析的用户提供方便的测试数据。Seurat 是一款用于单细胞转录组学分析的强大工具,而 SeuratData 数据包则包含了一些用于练习和演示的标准数据集,帮助用户学习和熟悉 Seurat 的使用。

SeuratData 可以用于教学和演示目的。在学习 Seurat 的时候,用户可以使用这些数据集来尝试不同的分析步骤,了解 Seurat 包的各种功能。比如我们经常使用的是pbmc3k这个数据集: Continue reading

23

数据分析有错误并不可怕,造假才不可饶恕

最近学徒在交流群里面点名了一个新鲜出炉( 2023年12月5日)的cell期刊的文章,因为里面有常规转录组,单细胞转录组,以及空间单细胞转录组,主流生物信息学技术都被囊括了,非常适合初学者练手。通讯作者是中山大学孙逸仙纪念医院的苏士成,他最近非常出名,被选为2023年“新基石研究员”,获2500万元资助。

这个文章标题短小精悍:《Choroid plexus mast cells drive tumor-associated hydrocephalus》,相关数据在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE207546

可以看到是常规转录组,单细胞转录组,以及空间单细胞转录组,如下所示: Continue reading

23

数据备份要追溯到五年前

五年前我做了一些ngs数据分析教程,当时是为了给学徒演示数据分析的基础概念,也录屏上传到了B站:

01

使用Seurat的v5来读取多个不是10x标准文件的单细胞项目

前面我们在 初试Seurat的V5版本 的推文里面演示了10x单细胞样品的标准3文件的读取,而且在使用Seurat的v5来读取多个10x的单细胞转录组矩阵 的推文里面演示了多个10x单细胞样品的标准3文件的读取。

但是留下来了一个悬念, 就是如果我们的单细胞转录组并不是10x的标准3文件,而是tsv或者csv或者txt等文本文件表达量矩阵信息,就有点麻烦了。接下来我们以2020的文章:《Single-Cell Transcriptome Analysis Reveals Dynamic Cell Populations and Differential Gene Expression Patterns in Control and Aneurysmal Human Aortic Tissue》举例说明,它的数据集是 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE155468 Continue reading

01

使用pathview增强你的KEGG数据库注释结果的可视化

前些天我在 生物学功能注释三板斧,提到了简单的超几何分布检验,复杂一点可以是gsea和gsva,更复杂一点的可以是DoRothEA和PROGENy类似的打分。

其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。 Continue reading

01

使用aPEAR来增强clusterProfiler的GSEA分析结果

前些天我在 生物学功能注释三板斧,提到了简单的超几何分布检验,复杂一点可以是gsea和gsva,更复杂一点的可以是DoRothEA和PROGENy类似的打分。

其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,但是GO数据库 注释通常包括三个方面的信息:分子功能(Molecular Function)、细胞组分(Cellular Component)和生物过程(Biological Process)。而前面我们演示了:使用topGO增强你的GO数据库注释结果的可视化,是超几何分布检验的结果的可视化,主要是展示GO数据库的有向无环图结构。接下来我们聊聊使用clusterProfiler的GSEA方法针对GO数据库进行注释后的结果的可视化,所以是需要大家自己提前弄清楚GSEA方法和超几何分布检验方法的区别哦! Continue reading

01

生信技能树一日游套餐

最近是又搞文章数据分析的图表复现文字版教程,也有视频号的直播互动,详见:殊路同归的关键单细胞亚群鉴定算法,但是阅读量就是起不来。

我可能是悟了,其实大家感兴趣的应该是我本人,过去的七八年间一百多个实习生都有自己的生物信息学笔记公众号都在日更产出知识点,在知识输出这方面我其实并不是我早期的实习生了。而且现在没办法继续培养实习生,我的办公室就空下来了,之前是预留的生信共享办公室出租,也是无人问津,想了想可能是因为基本上很难有人下定决心换一个城市生活和工作。 Continue reading

01

生信本科毕业后年薪五十万但能跳过这份月薪1000的实习吗

因为“众所周知”的原因,我们持续了五六年的实习生培养计划从此落幕了,但是这个事件让小红书走入了我的视线。隔三差五就打开看看里面的关于生物信息学学习和就业市场的真实分享,其中一个小伙伴(河北大学的2019届生信专业本科毕业生)分享了他最近五年的职场进阶之路,就是从研究所再到上市公司再到朝气蓬勃的小公司……
蛮有意思的,让我看到了十年前的我,也是大四就去帝都实习半年那个时候差一点就牺牲在2013的全城雾霾,也是工作三四年就年薪差不多30万了,不过我没有选择继续去涨工资到年薪50万而是蹉跎了七年在尝试科研路。 Continue reading

01

生物学功能注释三板斧

生物学功能注释是对特定的数量(几十个或者几百个)基因或蛋白的合集的功能进行描述和分类的过程。GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。 Continue reading

01

生物信息学软件工具的大致分类

生物信息学领域涉及到大量的不同种类的数据的分析和处理工作,因此这个领域就必然产生许多不同类型的软件工具,比如处理DNA、RNA、蛋白质序列等不同层面的数据。但是我们这里并不想按照组学种类来对生物信息学软件工具进行分类,因为不同组学经常是有软件是交叉的,比如fastqc软件就可以针对不同ngs组学数据进行质量控制。我这里把生物信息学软件工具按照使用难易程度的大致分成3类: Continue reading