很多小伙伴学习单细胞转录组数据靠的是10x公司提供的pbmc3k数据集,非常经典而且有配套的Seurat单细胞数据处理流程,全部的代码如下所示: Continue reading
初试Seurat的V5版本
虽然我们一再强调:假如你不喜欢最新版的Seurat包的单细胞理念,大家完全是可以选择降级这个Seurat。主要是因为很多初学者拿到了大量的基于V4版本Seurat的教程会手足无措,其实很容易迁移。所以我们也在学员们的催促下转向了Seurat的V5版本,详见:从零开始配置R编程语言软件环境,而且是在视频号有直播回放,详见: Continue reading
差异基因交集很少说明是了什么
批改了一个学员的表达量芯片作业题,发现她复现的文章很有意思,里面是3个数据集的各自的差异分析但是他们的基因交集是少得可怜, 如下所示; Continue reading
不做生存分析也可以拿到生存相关的单细胞亚群吗
前面我们通过生存分析聚焦到了恶性增殖的亚群,详见:关键单细胞亚群辅助判定之生存分析,而且也介绍了其实生存分析后可以做一个 最简单的统计学之取交集。 Continue reading
表达量芯片的代码当然是可以移植到转录组测序数据分析
前面我们分享了:时间序列转录组多次差异分析以及时序分析,这里面的开头是三分组的转录组测序数据,但是后面代码演示的时候是不同时间点处理的肿瘤细胞系表达量芯片数据。
因为代码是收费的,所以需要简单的回复一下读者的提问,就是大家感兴趣这个代码到底该如何移植到转录组测序数据分析,而且读者给出来了一个案例,就是2020的文章《Transcriptomic profiling across the nonalcoholic fatty liver disease spectrum reveals gene signatures for steatohepatitis and fibrosis》,它对应的数据集是:GSE135251,在其页面可以看到是216 snap frozen liver biopsies, comprising 206 NAFLD cases with different fibrosis stages and 10 controls were studied.
关心的是:non-alcoholic fatty liver disease (NAFLD) 的疾病进展,详见:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE135251 Continue reading
Python从零开始的配套b站视频和书籍
从零开始开始学习一个编程语言,我们肯定是首先得安装好它,比如前面我们讲解了Python的安装,它多个版本的差异以及管理,详见:Python初体验之弄清楚版本差异和如何安装管理,然后给出来了两个Python编辑器,就是PyCharm或者JupyterLab,任选其一都可以打开你的Python从零开始之旅。
接下来就需要给大家推荐一些在线资料啦,尤其是配套b站视频和书籍,还有配合我们生物信息学实践的Python练习题! Continue reading
Python初体验之弄清楚版本差异和如何安装管理
我们前些天的推文:简单绘制一个3D效果的饼图吧,对比了R语言和Python的可视化效果,成功的吸引了不少小伙伴入坑Python编程语言,而且它确实是在单细胞数据处理领域占比有超越R的趋势,所以有必要开辟一个Python专辑啦。我们就简单的把任意一本Python书籍的第一章先给大家介绍一下吧:如下所示: Continue reading
Python初体验之你需要一个IDE
我们前些天的推文:简单绘制一个3D效果的饼图吧,对比了R语言和Python的可视化效果,成功的吸引了不少小伙伴入坑Python编程语言,而且它确实是在单细胞数据处理领域占比有超越R的趋势,所以有必要开辟一个Python专辑啦。 Continue reading
Python初体验之你需要加快你的模块安装速度
我们前些天的推文:简单绘制一个3D效果的饼图吧,对比了R语言和Python的可视化效果,成功的吸引了不少小伙伴入坑Python编程语言,而且它确实是在单细胞数据处理领域占比有超越R的趋势,所以有必要开辟一个Python专辑啦。然后呢,开始学习一个编程语言,我们肯定是首先得安装好它,比如前面我们讲解了Python的安装,它多个版本的差异以及管理,详见:Python初体验之弄清楚版本差异和如何安装管理。 Continue reading
Python初体验之你可能需要Jupter的Notebook
我们前些天的推文:简单绘制一个3D效果的饼图吧,对比了R语言和Python的可视化效果,成功的吸引了不少小伙伴入坑Python编程语言,而且它确实是在单细胞数据处理领域占比有超越R的趋势,所以有必要开辟一个Python专辑啦。然后呢,开始学习一个编程语言,我们肯定是首先得安装好它,比如前面我们讲解了Python的安装,它多个版本的差异以及管理,详见:Python初体验之弄清楚版本差异和如何安装管理。
如果是在R编程语言,我们会推荐大家写rmarkdown,交互式动态呈现每次代码以及它的运行结果,一步到位输出HTML或者PDF格式的数据分析报表,非常方便。在Python编程语言里面,能实现类似的功能的就是Jupter的Notebook。 Continue reading
mac的homebrew会把gcc安装在哪里
终于遇到了大家“喜闻乐见”的 Matrix
包问题,就是 as_cholmod_sparse
,大家如果经常是使用r语言跑单细胞转录组就大概率会遇到,其实解决方案我们早就摸索好了也发给大家了: Continue reading
bd平台的单细胞转录组一定能捕获到中性粒细胞吗
看到了《单细胞天地》公众号分享了一个学徒实战的笔记,详见:BD平台单细胞的优点都被你弄丢了,那个肺癌的免疫治疗数据集在GSE207422,很容易读取作者给出来了的表达量矩阵后进行降维聚类分群,然后我看了看结果里面的中性粒细胞种qc指标都很差,确实很容易被忽视。。。。 Continue reading
BD平台单细胞的优点都被你弄丢了
因为众所周知的原因(详见: 很抱歉我这里没有朝九晚五 ,以及得了吧,不缺你这点关注 ),我现在是没有实习生了。但是我还有学徒,所以可以在培养 他们的同时,给他们布置一些数据分析实战任务。
这次我给学徒布置了一个非小细胞肺癌的免疫治疗的单细胞转录组数据,文章是2023的《Tumor microenvironment remodeling after neoadjuvant immunotherapy in non-small cell lung cancer revealed by single-cell RNA sequencing》,因为我注意到里面的降维聚类分群有大量的中性粒细胞,如下所示: Continue reading
10x的空间单细胞文件格式详解
虽然现在(2023年12月30日)空间单细胞技术已经是百花齐放了,主要是基于测序的10x Genomics Visium平台和Slide-seq技术,另外基于成像的技术也有一点点市场,比如:seqFISH+、MERFISH、 NanoString GeoMx Digital Spatial Profiler (DSP),还有其它小众产品就不值得一提啦。
是否需要 spaceranger count 的定量过程 Continue reading
10X这样的单细胞转录组里面的非编码基因信息很难挖掘
数据挖掘真的是把人逼到花样百出,我们《生信技能树》作为华语圈生物信息学自媒体界扛把子自然也是被各种开脑洞的思路“骚扰”着,不过大家请不要无限制的怼我的私人微信哈,如果提问,在公众号推文文末留言即可,或者发邮件给我,我的邮箱是 jmzeng1314@163.com
10x官网下载pbmc3k数据集走RNA速率分析
突然间发现我们的RNA速率分析笔记仅仅是分享了在Linux操作的部分,见:使用基于python的velocyto软件做RNA速率分析,已经是2021年7月的事情了。 Continue reading
10x官网下载pbmc3k的bam文件走定量流程
最近各个交流群总是看到大家询问一些单细胞公共数据集处理,居然是从bam文件开始,可能是因为都是从ENA数据库下载吧。
https://www.ebi.ac.uk/ena/browser/view/PRJNA578550?show=reads : Continue reading
4个基因如何做go和kegg数据库注释
看到公众号后台有人这样提问:4个基因如何做go和kegg数据库注释!
我觉得这样的问题蛮好玩,说明初学者很容易被各种各样的高大上的数据分析项目给误导,以为go和kegg数据库注释是什么了不得的高级分析,或者说不知道为什么要做,也不知道它可以解决什么问题,仅仅是想搞一下高大上的图表而已。 Continue reading
10x的单细胞转录组fastq文件的R1和R2不能弄混哦
正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:
10x的单细胞ATAC上游流程之cellranger-atac
前面我们组建的《 单细胞多组学上下游全打通 》的微信交流群,提到了该文章的数据集PRJNA768891里面的 atac的10x的单细胞,在ena下载是没有用的,必须去ncbi的sra下载,然后自己转fq文件。见:单细胞数据在ENA数据库和NCBI的SRA是有区别的