正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:
10X单细胞转录组原始测序数据的Cell Ranger流程(仅需800元)
差不多几个小时就可以完成全部的样品的cellranger的定量流程,但是如果初次接触这个 基于10x的单细胞转录组fastq文件的cellranger的定量流程,仅仅是看上面的推文,会漏掉一些基础知识,仅仅是安装cellranger和跑它的标准代码而已。
这些基础知识非常重要,我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下:
单细胞实战(五) 理解cellranger count的结果
单细胞转录组数据和普通的bulk转录组还是不太一样,bulk结果一般就是R1、R2,很容易区分;10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads。
这里我们在解压sra文件变成fastq文件的时候,使用了参数—split-files来输出3个fastq文件,但是它的文件名字并不是 R1和R2这样的格式,而前面的公众号推文给出来了一个示例是:
然后一个初次接触单细胞原始测序数据的实习生接到项目后也是做了如下所示的转换:
会让人误以为都是这样的规律,实际上文件大小就会告诉你这样的命名是错误的。而且也可以看文件里面的内容:
首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;通常是R1文件
然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;通常是I1文件
最后35-132个cycle得到了98个碱基,就是转录本reads(目前很多测序仪都是150bp了),通常是R2文件
也就是说R2 文件是真正的测序reads,肯定是文件最大。如果文件名字弄错了,走cellranger的定量流程就会得到如下所示报错:
走完cellranger的定量流程,每个样品就会得到3个表达量矩阵文件(barcodes.tsv.gz,matrix.mtx.gz,genes.tsv.gz或者features.tsv.gz),然后就可以走seurat流程进行单细胞降维聚类分群。这样的基础分析,也可以看基础10讲: