RNA-seq和ATAC-seq数据整合分析怎么少的了相关性散点图

于2021年3月发表在CELL杂志的文章, 标题是:《In vivo CD8+ T cell CRISPR screening reveals control by Fli1 in infection and cancer》,链接是:https://doi.org/10.1016/j.cell.2021.02.019

首先是RNA-seq数据

链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE149838

GSM4514055 RNA-seq_Fli1KO_rep1
GSM4514056 RNA-seq_Fli1KO_rep2
GSM4514057 RNA-seq_Fli1KO_rep3
GSM4514058 RNA-seq_Fli1KO_rep4
GSM4514059 RNA-seq_Fli1KO_rep5
GSM4514060 RNA-seq_WT_rep1
GSM4514061 RNA-seq_WT_rep2
GSM4514062 RNA-seq_WT_rep3

非常简单而且常规的差异分析,图表如下所示:

常规的转录组的差异分析

常规的差异分析呢,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;

这个GSE149838是提供表达量矩阵文件的,大家可以自行下载这个 GSE149838_Zeyu_Fli1koRNAseq_rawcounts.csv.gz 文件,然后走一下我们的转录组流程,看看能不能拿到同样的生物学意义的图表!

然后是ATAC-seq数据

链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE149836

GSM4514043 ATAC-seq_Fli1KO_rep1
GSM4514044 ATAC-seq_Fli1KO_rep2
GSM4514045 ATAC-seq_Fli1KO_rep3
GSM4514046 ATAC-seq_Fli1KO_rep4
GSM4514047 ATAC-seq_WT_rep1
GSM4514048 ATAC-seq_WT_rep2

首先呢也是简单的差异分析,重点是 differentially accessible (DA) peaks 而不是前面的RNA-seq数据的差异表达基因:

differentially accessible (DA) peaks 的特性

然后同样的有热图:

differentially accessible (DA) peaks 的热图

(D) Heatmap shows differentially accessible peaks between sgCtrl group and 2 sgFli1 groups (adjusted p value <0.05, log10 fold change >0.6). Selected genes assigned to the peaks are indicated.

因为这个数据集提供了peaks的bed文件,所以直接读入R里面进行数据分析即可哈!

GSM4514043_290_1_S4_peaks.bed.gz 529.0 Kb
GSM4514044_290_2_S5_peaks.bed.gz 460.6 Kb
GSM4514045_360_1_S6_peaks.bed.gz 535.0 Kb
GSM4514046_360_2_S7_peaks.bed.gz 495.8 Kb
GSM4514047_R_1_S2_peaks.bed.gz 456.6 Kb
GSM4514048_R_2_S3_peaks.bed.gz 442.7 Kb

文章里面提供了详细的软件和R包,比较容易follow的,如果确实有困难也可以考虑看我的视频:

最后是RNA-seq和ATAC-seq数据整合分析

首先ATAC-seq数据差异分析拿到的 differentially accessible (DA) peaks 可以去对应到基因组的基因,然后RNA-seq数据通常就有差异表达基因,两个基因集就可以取交集,做韦恩图:

韦恩图和散点图

可以看到,这个图里面并没有秀全部的基因,仅仅是差异的那些,RNA-seq和ATAC-seq数据各自的差异都有自己的流程和阈值,两个联合起来就是散点图啦!

这样的RNA-seq和ATAC-seq数据整合分析最近五年(2017-2021)很流行,比如,标题是:《Early chromatin shaping predetermines multipotent vagal neural crest into neural, neuronal and mesenchymal lineages》,链接是:https://www.nature.com/articles/s41556-019-0428-9.pdf,也有:

image-20210417093241466

再比如2017年发表的来自美国Jackson基因组医学实验室Jacques Banchereau团队的文章《The chromatin accessibility signature of human immune aging stems from CD8+ T cells》,描述了衰老过程中染色质动态变化的特征,发现了关键的基因及其调控特征。研究团队招募了51例健康年轻组(年龄22-40岁)与26名年龄大于65岁的健康老年组,利用ATAC-seq和RNA-seq发现了两组间显著差异的基因。文章是J Exp Med. 2017 Oct,doi: 10.1084/jem.20170416 ,数据在:https://ega-archive.org/datasets/EGAD00001003602

类似的性别+衰老,还有2020的NC文章《Sexual-dimorphism in human immune system aging》,也是 RNA-seq和ATAC-seq数据整合!

RNA-seq和ATAC-seq数据就足够了吗

RNA-seq和ATAC-seq数据固然是从两个层面来说明了问题,但是研究者这个时候还做了 Cut and Run chipseq

链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE149837

GSM4514049 CnR_Fli1_rep1
GSM4514050 CnR_Fli1_rep2
GSM4514051 CnR_Fli1_rep3
GSM4514052 CnR_Igg_rep1
GSM4514053 CnR_Igg_rep2
GSM4514054 CnR_Igg_rep3

更多数据层面信息

那么咱们《生信技能树》的B站免费NGS数据处理视频课程值得你拥有,目前,已经组建了微信交流群的有下面这些:

Comments are closed.