目前单细胞转录组以10X公司为主流,我们也是在单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下:
- 单细胞实战(一)数据下载
- 单细胞实战(二) cell ranger使用前注意事项
- 单细胞实战(三) Cell Ranger使用初探
- 单细胞实战(四) Cell Ranger流程概览
- 单细胞实战(五) 理解cellranger count的结果
但是这个两年前的系列笔记是基于V2,V3版本的cellranger,目前呢,它更新到了版本4,有一些改变,所以有必要再总结一个笔记。软件下载及安装
同样的,需要自己简单注册后就可以获取wget下载地址,因为版权的问题,我这里就不复制粘贴出来地址啦,反正简单填写邮箱即可注册拿到地址。
注册网页是: https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
一般来说,软件以及配套的数据库都需要下载,下载速度呢,就取决于你自己的网路情况啦,反正在中国大陆地区下载肯定会很慢的,建议nohup到后台,等一个晚上即可,我下面秀给你看两个不同的速度情况:
下载成功后的文件夹如下所示:972M Jul 4 05:18 cellranger-4.0.0.tar.gz 11G Jun 23 02:04 refdata-gex-GRCh38-2020-A.tar.gz
因为不做小鼠的数据,所以我只是下载了 refdata-gex-GRCh38-2020-A.tar.gz 这个数据库文件。
再看看我们的10x下机后的fastq数据文件
10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads。利用
mkfastq
或者bcl2fastq
生成的文件,大概长这样:
可以看到,截图里面是两个样本,其中一个样本有4次测序文件,每次测序文件都是 I1,R1,R2这3个fastq文件。
官网给指出来了文件名规则:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/2.0/using/fastq-input#wrongname ,如果你的fastq数据不是这样命名,就需要自行更改过来了,我上面截图的就是需要修改的,因为里面混入了AK这样的编号。
如果要理解这3个文件的区别,同理,也是需要自己去学习了解10x的原理,我这里就不再赘述: - 首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;
- 然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;
- 最后35-132个cycle得到了98个碱基,就是转录本reads
使用Cell Ranger
Cell Ranger主要的流程有:拆分数据 mkfastq、细胞定量 count、定量组合 aggr、调参reanalyze,还有一些小工具比如mkref、mkgtf、upload、sitecheck、mat2csv、vdj、mkvdjref、testrun。
但是,大概率上,我们只需要使用它的定量流程,就是 cellranger count 命令,教程在consult Running 10x Pipelines on FASTQ Files,主要就是需要把软件和配套的数据库文件,以及10x的fastq文件准备好。
如下所示:bin=../pipeline/cellranger-4.0.0/bin/cellranger db=../pipeline/refdata-gex-GRCh38-2020-A fq_dir=../raw/HP4540_2 $bin count --id=HP4540-2 \ --localcores=4 \ --transcriptome=$db \ --fastqs=$fq_dir \ --sample=HP4540-2 \ --expect-cells=5000
是不是超级简单,值得注意的是我把样本名字进行了修改,才成功运行这个 cellranger count 命令。服务器配置不一样,这个cellranger count流程运行时间不一样,我上面截图的一个样本是60G的fq文件数据走这个流程是5小时。
输出文件超级多,如下所示:
简单介绍如下: - web_summary.html:这个是必须要看的,粗略浏览本次10x样本走cellranger count流程的运行质量
- metrics_summary.csv:CSV格式数据摘要,可以不看
- possorted_genome_bam.bam:比对文件,超级大的bam文件,可以不看
- possorted_genome_bam.bam.bai:前面bam文件的索引文件,可以不看
- filtered_gene_bc_matrices:是超级重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件
-
outs/filtered_feature_bc_matrix/matrix.mtx.gz outs/filtered_feature_bc_matrix/features.tsv.gz outs/filtered_feature_bc_matrix/barcodes.tsv.gz
- filtered_feature_bc_matrix.h5:过滤掉的barcode信息HDF5 format,可以不看
- raw_feature_bc_matrix:原始barcode信息,可以不看
- raw_feature_bc_matrix.h5:原始barcode信息HDF5 format,可以不看
- analysis:数据分析目录,下面又包含聚类clustering(有graph-based & k-means)、差异分析diffexp、主成分线性降维分析pca、非线性降维tsne,因为我们会自己走Seurat、Scater、Monocle等分析,所以这个也不看。
- molecule_info.h5:进行aggregate使用的文件,可以暂时不看
- cloupe.cloupe:官方可视化工具Loupe Cell Browser 输入文件,我们通常不需要可视化软件,可以不看
10X单细胞转录组免费分析
我最近成功招募了几个实习生,所以可以继续开启免费数据分析活动啦。其实数据分析对我来说其实就没有成本,无非就是跑一下流程,关键是沟通起来太费劲,大家只需要把10X单细胞转录组的fq数据给到我,我就免费给大家跑流程,以及出几百个图表给到你。但是我不会给你解释任何细节知识点,也不要试图添加我微信哈,绝大部分生信技能树粉丝都没有机会加我微信。已经多次满了5000好友,所以我开通了一个微信好友,前100名添加我,仅需150元即可,3折优惠期机会不容错过哈。我的微信小号二维码在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》
我会安排实习生去给你解释我的10X单细胞转录组的结果和图表,当然了,你也可以自己学,课题设计可以看我们以前的教程: - 我的课题只有一个10x样本肿么办?
- 两个样品的10x单细胞转录组数据分析策略
- 三个10X单细胞转录组样本CCA整合
- 多个单细胞转录组样本的数据整合之CCA-Seurat包
还有:使用seurat3的merge功能整合8个10X单细胞转录组样本 和 seurat3的merge功能和cellranger的aggr整合多个10X单细胞转录组对比 。
技术细节可以看: - 10X scRNA免疫治疗学习笔记1-前言
- 10X scRNA免疫治疗学习笔记-2-配置Seurat的R语言环境
- 10X scRNA免疫治疗学习笔记-3-Seurat标准流程
- 10X scRNA免疫治疗学习笔记-4-细胞亚群的生物学命名
- 10X scRNA免疫治疗学习笔记-5-差异分析及可视化
- 10X scRNA免疫治疗学习笔记-6-marker基因的表达量可视化
- 10X scRNA免疫治疗学习笔记-7-条条道路通罗马—单细胞分群分析
另外,我创立了《单细胞天地》这个公众号,并且制作了两个视频:全网第一个单细胞课程(免费基础课程)
- 免费学习地址在B站:https://www.bilibili.com/video/av38741055 ,欢迎提问弹幕交流!
- 务必听课后完成结业考核20题:https://mp.weixin.qq.com/s/lpoHhZqi-_ASUaIfpnX96w
- 课程配套资料文档在:https://docs.qq.com/doc/DT2NwV0Fab3JBRUx0
技能树出品的第二个单细胞课程(进阶课程,仍然免费)
- 详情请自行阅读介绍 https://mp.weixin.qq.com/s/bLfO-8ri_SNUepGs4UwRQw
- 本课程长期答疑文档,https://docs.qq.com/doc/DT0FxbEpHYU5ZVlpu
因为课程涉及到知识点太多,所以我拆分成为了5个子课程,欢迎B站提问弹幕交流!全部链接是: - 「生信技能树」单细胞进阶数据处理之文献导读,链接是:https://www.bilibili.com/video/BV17f4y1R7N8
- 「生信技能树」使用10X单细胞转录组数据探索免疫治疗,链接是:https://www.bilibili.com/video/BV1xD4y1S74P
- 「生信技能树」单细胞基因组数据拷贝数变异分析流程,链接是:https://www.bilibili.com/video/BV1Yf4y1R75R
- 「生信技能树」云服务器处理单细胞转录组数据,链接是:https://www.bilibili.com/video/BV154411Z7DU
- 「生信技能树」使用Smart-seq2单细胞转录组数据探索小鼠性腺发育,链接是:https://www.bilibili.com/video/BV1454y1q77Z
也希望可以帮助到你。其它数据分析也免费
前面的优秀本科生活动, 已经带领了近100名优秀本科生了解生物信息学相关毕业设计:这120万我就不要了,送给500名优秀本科生,符合条件的继续报名哈!还有《暑期夏令营活动》,虽然没有赶上夏令营大部队,但也算是表达了我的心意。
然后是我们生信技能树推文里面提到的各种各样的数据分析环节都是我非常有经验的,比如我在lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来说是举手之劳,希望可以帮助到你! - 转录组数据分析的4个维度认识(数据分析继续免费哦) RNA-seq数据的2个分组差异分析,热图,PCA图,火山图等等
- 根据感兴趣基因看肝癌免疫微环境的T细胞亚群差异 条形图或者箱线图
- 查看感兴趣基因的甲基化水平和RNA表达水平(数据分析免费做)相关性 散点图或者箱线图
- 我不相信kmplot这个网页工具的结果(生存分析免费做)
- 单基因GSEA分析策略(数据分析免费做活动继续)
- 干扰一个基因然后分析全局基因表达其实是无法定位该基因完整功能(春节免费数据分析活动继续)
- log与否会改变rpkm形式表达矩阵top的mad基因列表 WGCNA分析免费做
- 甲基化信号值的差异分析也许不应该是看logFC 甲基化信号矩阵差异分析免费做
- WGCNA得到模块之后如何筛选模块里面的hub基因 WGCNA分析免费做
- 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析
还是老规矩,发送数据分析要求,以及简短的项目描述到我的邮箱 jmzeng1314@163.com 目前只接受邮件这个交流形式,谢谢合作,麻烦用心一点写!
邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友很多,所以会根据你的来信,我主观判定一个优先级哦。目前我有20多个愿意长期在我的指导下进行数据探索的学徒,等我的团队扩大到200人,我们应该是可以做到数据分析全部免费,敬请期待哈!