近年来,单细胞生物学研究一直是热点领域,而尤为大家所关注的就是单细胞转录组测序了(single-cell RNA sequencing (scRNA-seq)).
传统的转录组采用`混池`(bulk)测序,会一下子处理成千上万个细胞,得到的是它们的平均值。但是没有任何两个细胞在基因表达水平会完全一样,而单细胞转录组测序就可以揭示各个细胞间的微小差异,找到单个细胞的独特性,进一步可以挖掘那些全新的细胞类型。
位于麻省剑桥的博得研究所的Aviv Regev教授(Aviv Regev of the Broad Institute in Cambridge, Massachusetts)和她的同事就对2400个免疫系统的细胞进行了单细胞转录组测序,从而发现了部分树突细胞有着被T细胞刺激激活的潜力。文章是[A.-C. Villani et al. Science 356, eaah4573; 2017](http://dx.doi.org/10.1126/science.aah4573)Regev说道,设计能刺激该类细胞的疫苗可以增强机体免疫力从而抵御癌症。
但有这样的发现着实不易,在实验中操作单个细胞的难度要远大于群体细胞。同时由于单个细胞仅仅表达一小部分的RNA,所以。另一个麻烦的地方在于通常来说,转录组数据的分析需要在Unix操作系统里面输入大量的命令,组合调用一系列软件,生成各种中间文件。每个软件通常只负责分析流程的一个步骤,比如比对、质量控制,找变异位点等等。
是不是很复杂,顿时很想甩锅?
是的,数据分析是复杂的。但对于混池转录组测序来说,至少已经有了成熟的数据分析流程,知道了每个步骤该使用什么软件,知道了参数该如何设置,也知道了哪一个算法最优。这些分析流程虽然不是简单至极,但对于非软件开发专家来说已经是很容易实现该流程了,而且可以追踪每个步骤。
位于英国剑桥的国家癌症研究中心的Aaron说道(Aaron Lun, a computational biologist at Cancer Research UK in Cambridge),如果仅仅是分析差异表达基因组,那么混池转录组测序是一个非常容易实现的方案。但对于单细胞转录组测序来说,情况就有所不同了,研究者还在为测序数据找新的分析步骤,并研究哪种算法表现最优异。已经有一系列的软件和数据库资源来加快单细胞转录组测序的数据处理了,比如在GitHub上面的[Awesome Single Cell](http://go.nature.com/2rmb1hp)里面就列出来了超过70多款软件和工具,涵盖着单细胞转录组测序的数据处理方方面面。
华盛顿大学的生物学家Cole Trapnell(Cole Trapnell, a biologist at the University of Washington in Seattle.)说道:聚焦于单细胞转录组测序却常常是上千个样本。那些设计来处理少量样本数据的工具通常对于这些大批量样本数据表现很差,或者消耗成千上万倍的时间的数据处理的软件已经很可观了,自成体系。
在去年发表的一篇综述上面,夏威夷大学的生物信息学专家Lana Garmire(Lana Garmire, a bioinformatician at the University of Hawaii in Honolulu)就详细介绍了单细胞转录组测序的数据处理的基本步骤以及适用于这些分析步骤的48款软件。她同时说道,大多数数据分析流程有着一定的共性,比如原始测序数据的质量控制,找到表达的那些转录本,矫正扩展过程引入的系统偏差。接下来还有一些下游分析主要是找到细胞亚群,并且弄清楚各个亚群的生物学特性和功能。文章是[O. B. Poirion et al. Front. Genet. 7, 163; 2016](http://dx.doi.org/10.3389/fgene.2016.00163)
威斯康辛-麦迪逊大学的生物统计学专家Christina Kendziorski(Christina Kendziorski, a biostatistician at the University of Wisconsin–Madison)说道很多情况下为了混池转录组测序数据处理开发的软件仍然是可以应用于单细胞转录组测序的数据处理的。但是两种数据的天然差异导致了并不是所有的软件都可以移植。
首先,单细胞数据的背景噪音很大,它们的起始RNA量是如此之少,以至于实验过程中的扩展步骤的些微差异或者捕获效率的不同都会对造成细胞与细胞之间,甚至不同时间段的巨大差异,而这些差异通常跟生物学意义无关。研究者必须对这样的批次效应谨慎对待,因为哪怕是同样的细胞在不同时间段做的实验结果都无法保证统一,完全是因为技术的问题,而且还有dropouts的问题,就是某些基因其实是在该细胞内表达,却无法被测序到。
另外一个难点在于计算量,位于澳大利亚的心血管疾病研究所的生物信息学家Joshua Ho说道(Joshua Ho, a bioinformatician at the Victor Chang Cardiac Research Institute in Sydney, Australia.)一个典型的混池转录组测序通常只测有限的几个样本,但是单细胞转录组测序却常常是上千个样本。那些设计来处理少量样本数据的工具通常对于这些大批量样本数据表现很差,或者消耗成千上万倍的时间。哪怕那些看起来很简单的如何制备一个质量比较好的细胞文库这样的问题,在单细胞转录组测序领域都是很复杂的。
Lun开发的实验流程首先加上每个单细胞都表达同样的RNA丰度。但是这样的假设不一定成立,他说,比如那些几乎从来不会被抗原激活的naive T cells就相对来说非常的沉默,相当于其它免疫细胞来说表达的mRNA就非常少了,这样就有可能会被下游分析软件给剔除掉,因为软件认为它并没有足够的数据量。
也许最显著的差别在于,做单细胞转录组测序的研究者通常想研究的生物学问题跟做混池转录组测序的就不一样。
混池转录组测序通常是要找到那些在不同处理条件下的差异表达基因,但是单细胞转录组测序的研究者想找到的是新的细胞类型或者细胞状态从而重建细胞发育通路变化过程。正是因为研究目的不一样,开发新的软件工具来分析单细胞转录组测序数据就显得非常重要了。
单细胞测序数据处理的一个重要步骤是降维,这一过程会简化数据形式从而鉴别那些表达相似的细胞。据英国剑桥桑格研究所的Martin Hemberg(Martin Hemberg, a computational biologist at the Wellcome Trust Sanger Institute in Cambridge, UK)所说,单细胞转录组测序中的每个细胞都会算出近两万个基因的表达量。PCA(principal component analysis )和t-SNE(t-distributed stochastic neighbour embedding )等常见的降维算法可以有效的使之降成到2到3维数据,使得细胞之间求相似性变得可行。另一种常见的分析是pseudo-time,2014年Trapnell开发了第一个可以做pseudo-time分析的软件,叫做Monocle。这款软件利用了机器学习的算法来通过单细胞转录组测序数据伴随着细胞分化过程的基因表达的变化,难度相当于从天空中对地面赛跑着进行持续拍照进行推断他的行走线路。
另外有其它工具被开发来解决细胞亚群的鉴别(比如麻省波士顿的哈佛医学院的Peter Kharchenko等人开发的Pagoda空间位置的确定,它们会利用组织内的基因表达分布数据来探究各个转录组的组织起源。
纽约城市大学的基因组中心的Rahul Satija就开发了一个这样的工具,叫Seurat,作为Regev实验室的博士后,他说,这款软件可以把各个单细胞定位到组织的3D空间模型。尽管是为了解决某个具体任务而开发的软件,它们同时也是可以利用于其它需求。比如做3D定位的Seurat就还可以细胞亚群的鉴定,Regev团队就用它鉴定出来了免疫系统的一些新的细胞群体。
圣地亚哥的加利福利亚大学的生物信息学家Gene Yeo( Gene Yeo, a bioinformatician at the University of California, San Diego)表示,大多数单细胞转录组测序数据分析软件是基于Unix平台开发的,或者是一个R语言包,但是很少有生物学家可以顺畅的利用它们即使他们能hold住计算环境,也不一定有时间去下载程序必备的数据资源和配置它们的运行环境。
也有一些一站式的工具被开发出来了,商业流程有FlowJo开发的GenSeq,完全开源的由Garmire实验室的Granatum,以及Bart Deplancke实验室的ASAP (the Automated Single-cell Analysis Pipeline) ,这些工具都是有着图形界面,适于不太擅长编程的生物学家使用。
ASAP和Granatum是基于网页浏览器的,提供了一个相对简单的交互式的流程,使得研究者可以可视化的探索他们的数据。用户需要上传他们的数据,这样就可以在工具里面一步步的进行分析.ASAP涵盖的分析流程包括,数据预处理,可视化,聚类,还有差异表达分析。而Granatum允许用户进行pseudo-time分析,同时还可以整合蛋白相互作用的分析步骤。
不管是Garmire还是Deplancke, ASAP还是Granatum,它们这些工具的设计都是为了让科研工作者和计算生物学家的合作更紧密。夏威夷大学的博士生Xun Zhu,同时也是Granatum的主要开发者,说:科研工作者以前通常把生物信息学家的工作看作是一种魔法,拿到了数据就奇迹般的分析出来了结果。而现在他们可以部分参与进来了,通过修改网页工具里面的参数,这是一件好事。
然而,这些工具也并不是在所有情况下都适合的。一个在鉴定细胞类型的分析表现优异的工具,可能在pseudo-time分析步骤上表现平平。而且,所谓适合的统计分析方法通常又会一定程度上依赖于数据本身。位于伯克利的生物统计学家Sandrine Dudoit(Sandrine Dudoit, a biostatistician at the University of California, Berkeleyt)说道:分析方法和参数都是需要调整的,需要考虑到诸如测序深度这样的变量。而且Marioni也说到不要过分依赖于流程化的东西,不能因为你的卫星导航告诉你应该开到河里去,你就真的往河里开。
对初学者来说,谨慎是应该的。生物信息学工具总是可以给你答案的,问题在于,这个答案真的有生物学意义吗?Dudoit的建议是做一些探索性的分析,来确保你选取的算法的假设前提是有意义的。
还有一些统计分析任务是有挑战性的,Satija说道:比如该如何比较不同实验条件下甚至不同物种的单细胞测序结果,还有如何结果其它组学数据。他计划在他开发的Seurat工具的更新版本里面解决这些问题。
但是现有的工具已经足够大多数科研工作者忙一段时间了,Kendziorski建议那些真正感兴趣的可以继续深入挖掘。每个新的工具都可以揭示一些生物学现象,请持续关注科学进展,并且谨慎对待你的结论。