学员给了一个2023的单细胞文章:《Single-cell RNA sequencing reveals a mechanism underlying the susceptibility of the left atrial appendage to intracardiac thrombogenesis during atrial fibrillation》里面的单细胞转录组数据集仅仅是公开了数据集的fastq文件,并没有表达量矩阵。我们就顺手下载并且处理了。
首先需要参考 小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码),走cellranger流程,主要是拿到服务器后配置自己的conda环境,以及下载项目对应的单细胞转录组数据集的fastq文件,如下所示:
ls -lh *z|cut -d" " -f 5-
48G 6月 12 01:05 SRR18308247_1.fastq.gz
47G 6月 12 01:39 SRR18308247_2.fastq.gz
45G 6月 12 02:06 SRR18308248_1.fastq.gz
44G 6月 12 02:32 SRR18308248_2.fastq.gz
41G 6月 12 02:57 SRR18308249_1.fastq.gz
31G 6月 12 03:15 SRR18308249_2.fastq.gz
47G 6月 12 03:44 SRR18308250_1.fastq.gz
36G 6月 12 04:07 SRR18308250_2.fastq.gz
41G 6月 12 04:35 SRR18308251_1.fastq.gz
34G 6月 12 04:56 SRR18308251_2.fastq.gz
41G 6月 12 05:20 SRR18308252_1.fastq.gz
37G 6月 12 05:43 SRR18308252_2.fastq.gz
有了这些文件,就需要很简单的改名操作,因为走cellranger流程,它软件要求。。。
ls -lh *z|cut -d" " -f 5-
22 6月 12 21:51 A1_S1_L001_R1_001.fastq.gz -> SRR18308252_1.fastq.gz
22 6月 12 21:54 A1_S1_L001_R2_001.fastq.gz -> SRR18308252_2.fastq.gz
22 6月 12 21:51 A2_S1_L001_R1_001.fastq.gz -> SRR18308251_1.fastq.gz
22 6月 12 21:54 A2_S1_L001_R2_001.fastq.gz -> SRR18308251_2.fastq.gz
22 6月 12 21:51 B1_S1_L001_R1_001.fastq.gz -> SRR18308250_1.fastq.gz
22 6月 12 21:54 B1_S1_L001_R2_001.fastq.gz -> SRR18308250_2.fastq.gz
22 6月 12 21:51 B2_S1_L001_R1_001.fastq.gz -> SRR18308249_1.fastq.gz
22 6月 12 21:54 B2_S1_L001_R2_001.fastq.gz -> SRR18308249_2.fastq.gz
22 6月 12 21:51 C1_S1_L001_R1_001.fastq.gz -> SRR18308248_1.fastq.gz
22 6月 12 21:54 C1_S1_L001_R2_001.fastq.gz -> SRR18308248_2.fastq.gz
22 6月 12 21:51 C2_S1_L001_R1_001.fastq.gz -> SRR18308247_1.fastq.gz
22 6月 12 21:54 C2_S1_L001_R2_001.fastq.gz -> SRR18308247_2.fastq.gz
如果是有自己的服务器要参考 小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码),走cellranger流程,是可以拿到表达量矩阵的。
但是文章描述的单细胞转录组数据处理流程有点奇怪:
- Cells expressing <800 or >4000 genes per cell, and those with mitochondrial gene percentages >.1 were removed.
- Cells with mitochondrial unique molecular identifier (UMI) counts >6% or ribosomal UMI counts >50% were also considered abnormal.
- The batch effect was corrected, and the merged object was integrated by running Harmony (version 1.0).
不过文章里面的降维聚类分群还行:
因为前面的 小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码),写的很清楚了,这里就不赘述了。如果要做到文章里面的单细胞亚群的生物学命名,需要使用文章里面的基因,我这里就不耗费时间了。