植物种子发育转录调控-2020年8月份第4周(总第128周 )

本次分析的文章发表在Plant Cell. 2019 May; 题为‘High-temporal-resolution Transcriptome Landscape of Early Maize Seed Development’的学术论文。该研究通过对玉米珠心(包括胚囊)进行RNA-seq分析,绘制了高时间分辨率的玉米籽粒发育早期转录组图谱。 需要注意的是 days after pollination (DAP) 和 hours after pollination (HAP)
早在2008年,就有研究者使用表达芯片技术,探索过6个时间点的玉米种子发育过程的转录调控变化细节。2013和2014也分别有研究团队使用RNA-seq技术探索。具体不是我的研究领域,懒得翻译了。总之,由于之前的转录组研究没有足够的时间分辨率,可能有多个只在特定发育阶段短时间表达、但对籽粒早期发育很重要的基因没有得到解析。作者这个研究是目前为止涉及到的时间点最多的,可以检测到22,790 genes, including 1415 transcription factors (TFs),的动态变化,其中1093 genes, including 110 TFs是有统计学特异性的表达在某个发育阶段。

4个发育阶段

对RNA-seq数据的转录表达谱进行主成分分析还有层次聚类,都可以清晰的看到玉米种子发育早期的31个时间点,可以清晰的分成4个发育阶段:

  • 双受精(double fertilization)
  • 多核形成(coenocyte formation)
  • 细胞化(cellularization)
  • 分化(differentiation)
    示意图如下:
    image-20190820122035262

    每个阶段都有特异性高表达基因

    在玉米种子早期发育阶段共有22790个基因表达,包括1415个转录因子。其中,有1093个基因(包括110个转录因子)只在种子中特异性的表达;这里面大部分基因是在本次研究中被发现的,而且它们具有高度的时间表达特性,也就是说它们只在种子发育的特定阶段表达。后面会进行细致的注释和解释。
    可以看到,在授粉后的前16小时、胚乳游离核期、细胞化和分化阶段分别鉴定到了160、22、112和569个籽粒特异性基因。
    | Developmental Stage | No. of Genes/TFs | No. of Specific Genes/TFs |
    | :———————————————————- | :—————————- | :—————————————— |
    | Around double fertilization (0 ∼ 16 HAP) | 4,453/414 | 160/18 |
    | Coenocyte (20 ∼ 44 HAP) | 1,285/53 | 22/1 |
    | Cellularization (48 ∼ 96 HAP) | 2,569/125 | 112/7 |
    | Differentiation (102 ∼ 144 HAP) | 3,614/224 | 569/60 |
    | Other | 10,869/599 | 230/24 |
    | Total | 22,790/1,415 | 1,093/110 |
    以表达量随着时间变化的折线图表示:
    image-20190820122245515
    这里,其实可以借鉴单细胞转录组的分析及统计可视化技巧,比如在PCA图上面标记表达量热图,大家可以根据我的提示来尝试一下:
    image-20190820122344263

    每个发育阶段特异性表达基因的功能注释

    可以把每个发育阶段与其它数据进行差异分析,拿到独特的差异基因列表,然后绘图可视化展现如下:
    image-20190820122520574
    当然,也不能忽略大量基因在多个发育阶段出现,如下:

    We found that a total of 10,869 genes, including 599 TFs, in modules of M10 ; M18 were expressed at more than one of the four stages
    image-20190820122635037
    不同的发育阶段会有一些共同的生物学过程。
    值得一提的是,因为这里的数据是玉米物种,所以富集分析这里使用MapMan, Mapman是一款老牌但却持续更新的植物基因功能分析,通路分析的软件。做植物分子生物学研究,组学研究的工作者,应是都有所了解。反正我是不了解啦。
    Mapman除了对基因进行注释及表达数据可视化之外,还可以利用软件之际对多样品数据进行聚类分析。主要操作过程如下: 从Experiments导入表达数据,具体参考文章:植物代谢通路注释+基因表达可视
    文章里面的描述是:
    Functional category enrichment for each coexpression module was evaluated with the MapMan (v3.6.0) functional annotation

    使用MeV软件找基因共表达

    TIGR推出的微阵列分析软件包之一。MultiExperiment Viewer的缩写, 通用微阵列分析工具,运用各种算法对格式化好的微阵列数据进行聚类、统计、热图显示、分析
    本研究作者就是采用MeV软件: we clustered all 22,790 expressed genes, including 1415 (6.2%) TFs into 18 coexpression modules using the k-means clustering algorithm。
    然后把这18个基因模块一个个描述它们的生物学意义, 其实我们通常是使用WGCNA来做这个分析,我估计作者应该是没有WGCNA的概念,就采用经典而且简单的MeV软件

    数据下载

    其中 RNA-seq data as FPKM values is available through the eFP Browser engine (http://bar.utoronto.ca/efp_maize/cgi-bin/efpWeb.cgi?dataSource=Early_Seed), 如果要下载原始数据,需要服务器去处理,在 PRJNA505095.
    作者使用hisat2软件把测序的fastq文件比对到玉米的B73参考基因组,然后用cufflinks计算基因的RPKM值,
    测序数据量不小:
    image-20190820145126152

    使用公共数据库

    作者这里在寻找种子特异性表达基因的时候,使用了公共数据,如下:
    image-20190820150756626

    调控网络

    研究者这里推断gene regulatory network (GRN)的方法参考两个文献
    image-20190820150940072
    该网络预测了1,317个转录因子和14,540个基因之间的31,256个相互作用。

Comments are closed.