最近开始在学习基于R语言的seurat包的单细胞测序数据分析。Jimmy老师给了一个实战分析,在分析过程中逐渐认识seurat包的数据结构。本次推文主要分享一下如何替换seurat对象中的orig.ident
为样本名字。 Continue reading
Category Archives: 未分类
如何比较两次单细胞分群结果呢
直播展示单细胞降维聚类分群的时候有小伙伴说我们昨天和今天大家结果居然不一样! Continue reading
如果R代码一定要访问github链接导致运行失败
最近测试了immunedeconv包,首先它在github上面,所以本身就很难安装:
# deconvolution_methods
# https://github.com/omnideconv/immunedeconv
# remotes::install_github("omnideconv/immunedeconv")
library(immunedeconv)
library(tidyverse)
library(tidymodels)
然后我在运行immunedeconv包里面的mcp_counter时候,发现它需要访问一个在github的文本文件:
res.mcp <- deconvolute(expr, 'mcp_counter')
那肯定是会报错:
# genes = read.table(curl:::curl("https://raw.githubusercontent.com/ebecht/MCPcounter/master/Signatures/genes.txt")
# Could not resolve host: raw.githubusercontent.com
然后chatGPT给我了两个解决方案,通过BioinfoArk提供的中国区chatGPT查询: Continue reading
完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析
一个月前( 2023-12-01 )的学徒作业:任意癌症的任意基因突变与否分组后的转录组测序的差异分析,陆陆续续收到了一些反馈,有马拉松授课学员的也有学徒实习生的,发现虽然说给大家指明了数据分析结题思路,但大家仍然是千奇百怪的错误。总体上就5个步骤,大家可以错十几处: Continue reading
任何细胞都有免疫特征
关键是看如何定义免疫特征,比如kegg数据库里面的就有很多免疫特征相关的功能基因列表,首先它区分成为了如下所示的7个大类: Continue reading
认识Seurat的空间单细胞对象结构
前面我们提到了空间单细胞约等于10x技术,就比较方便理解,虽然说也有其它空间单细胞技术可以产出各式各样的数据。详见:10x的空间单细胞文件格式详解
但是对初学者来说,重要的是如何把不同技术产出的表达量矩阵导入到R或者Python这样的编程语言环境里面。今天我们来介绍的是在R语言里面的最流行的Seurat的单细胞流程,第一步就是理解Seurat的空间单细胞对象结构。值得注意的是我们接下来(2023年12月30日之后)的教程都是基于Seurat的V5版本哦: Continue reading
轻轻松松在R里面拿捏这130万单细胞的数据集
本笔记会被收录于《生信技能树》公众号的《单细胞2024》专辑,而且我们从2024开始的教程都是基于Seurat的V5版本啦,之前已经演示了如何读取不同格式的单细胞转录组数据文件,如下所示: Continue reading
爬虫的10种思路
最近看到了浙江大学的陈老师课题组主编的生物信息学教材居然还配套了每个章节的PPT教案,而且持续更新了十年,比我做生物信息学还早!!!如下所示: Continue reading
你的时薪是自己弄低的
我们持之以恒地挑选值得复现的精彩的生物信息学数据分析文章的图表作为学徒作业给大家,下面的《学徒作业》专辑里面的练习题可以配合生物信息学入门使用,也可以作为面试考核题哦! Continue reading
能从源头解决数据分析的瑕疵吗
前面我们在推文:数据分析有错误并不可怕,造假才不可饶恕 提到了这个新鲜出炉( 2023年12月5日)的cell期刊的文章单细胞转录组数据分析环节是有一些瑕疵的。
首先是在 单细胞水平这样的细胞比例变化可靠吗 已经提到了两个分组的单细胞亚群比例变化问题,很大程度上受到了离群点的影响。另外就是总体上这个cell期刊的文章的降维聚类分群后的拿到的各个亚群的特异性高表达量的基因列表就不常见,但是如果仅仅是使用作者提供的矩阵文件那么就很难搞清楚问题出在哪里,所以我们还是从单细胞转录组的测序数据开始: Continue reading
能把你服务器跑坏的r代码其实很简单
我们一直都有一个很简单的服务器共享业务,详见:生物信息学江湖的开创性产品-共享服务器。因为是同一个机器给很多人错峰使用,所以过去的五年一直运行的蛮好。
但是有一些代码本身有问题,所以也确实是有一些时候会造成整个服务器奔溃,比如一个小伙伴跑一个简单的动态预测模型代码,详见: Continue reading
内分泌器官胰岛的细分单细胞亚群
我们的《标记基因》专辑目前主要是介绍了肿瘤相关单细胞转录组的第一层次降维聚类分群后的细分亚群:
- immune (CD45+,PTPRC),
- epithelial/cancer (EpCAM+,EPCAM),
- stromal (CD10+,MME,fibo or CD31+,PECAM1,endo)
名校博士使用R语言大战医疗蛀虫
看到了新华社
在2023-12-04 发布的新闻:《三甲医院超收21万余元医疗费,官方通报!》,提到了医院过度收费而且违规使用医保基金的问题,如下所示: Continue reading
两种不同的方法实现harmony的多个单细胞整合
本笔记会被收录于《生信技能树》公众号的《单细胞2024》专辑,而且我们从2024开始的教程都是基于Seurat的V5版本啦,之前已经演示了如何读取不同格式的单细胞转录组数据文件,如下所示: Continue reading
来源于多个物种的单细胞转录组表达量矩阵如何处理
PDX模型(Patient-Derived Xenograft Model)对肿瘤研究的小伙伴来说非常熟悉了,这样的癌症研究模型,它涉及将来自患者的癌细胞或组织移植到小鼠等动物宿主体内培养。这种模型的目的是更好地模拟人体内癌症的特性,以进行更真实、更有效的药物测试和研究。 Continue reading
辣鸡科研搞一次就算了吧
众所周知,绝大部分科研都是制造辣鸡。生活所迫嘛,升职加薪需要这个辣鸡玩意儿,肯定是大家趋之若鹜,也很容易走入灰色地带交易。
很多人说硕博士毕业不得已而为之,一辈子就怎么一次制造辣鸡,反正毕业后就再也不碰科研这个肮脏玩意儿,所以也很难对它们这样的行为追责!
但是,刚才在朋友圈看到了一个骇人听闻的新闻,英国莱斯特大学张煜东作为通讯作者发一口气制造了9个科研辣鸡,大家看看这些文章的在线链接就明白了是什么肮脏玩意儿: Continue reading
各种单细胞表达量矩阵和空间信息的导入
前面我们演示了R语言里面的最流行的Seurat的单细胞流程是如何导入标准10x技术空间单细胞文件, 虽然说也有其它空间单细胞技术可以产出各式各样的数据。详见:10x的空间单细胞文件格式详解,但是我们粗浅的可以认为空间单细胞约等于10x技术。不过Seurat官网确实是给出来了两个分类: Continue reading
可能是作者把部分样品标记错误了分组吗
看到了一个2023年11月发表的文章《Cross-talk between Myeloid and B Cells Shapes the Distinct Microenvironments of Primary and Secondary Liver Cancer》是非常简单的普通转录组结合单细胞转录组的数据分析案例,取样是 hepatocellular carcinoma (HCC) 和 colorectal cancer liver metastasis (CRLM)的两个分组,非常清晰的实验设计。 Continue reading
具体的样品被表达量芯片技术检测到的基因数量如何计算
学徒做了个GSE26305数据集的表达量芯片练习,总体上来说,经过了我们的标准分析训练,是可以完成差异分析和富集分析的,详见我十年前的公众号推文,目录在:
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
但是具体是到细节,学徒就傻眼了,比如文章里面提到了不同的样品使用这个芯片的时候仅仅是检测到1.33万个基因,如下所示: Continue reading
简单绘制一个3D效果的饼图吧
我们来演示一下使用plotrix
、dplyr
和ggsci
等库来生成一个3D饼图,plotrix
提供了pie3D
函数,dplyr
用于数据处理,ggsci
提供了调色板pal_jama
。
首先是安装和加载这些包,代码如下所示: Continue reading