说到WGCNA分析,分享一个好玩的故事, https://www.ncbi.nlm.nih.gov/pubmed/31382519 我3年前的WGCNA的教程, 有人拿去发文章了 , 是不是很有趣,https://github.com/jmzeng1314/my_WGCNA,而且不止发一篇,还有一个,https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6639467/ 同样的数据集和代码
文章发表于2017年11月,是 A novel microglial subset plays a key role in myelinogenesis in developing brain
数据公布在GEO,还提供了表达矩阵:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE78809
cat GSE78809_series_matrix.txt|grep ftp|tail -1|tr '\t' '\n'|tail -n +2|xargs wget -c
可以直接下载表达矩阵去走下游分析,也可以从 https://www.ncbi.nlm.nih.gov/sra?term=SRP071039 测序原始数据开始。
背景介绍
大脑中的细胞大致分为两类:神经元(neurons)和神 经胶质细胞(glial cells)。 出生后,神经元逐渐延长形成轴突和树突,彼此交联形成复杂的信息交换网络。大脑中50%以上的细胞都是神经胶质细胞,数量上是神经元的3倍。
神经胶质细胞包括在脑和脊髓中的大胶质细胞(星形胶质细胞Astrocyte和少突胶质细胞Oligodentrocyte)、小胶质细胞(microglia)和室管膜细胞(Ependymal cells),周围神经系的神经节卫星细胞(satellite cell)和雪旺细胞(schwann cells)。(是不是一脸懵逼,感觉很受伤,无所谓,不影响本文的WGCNA分析)
小神经胶质细胞(Microglia)作为脑部目前唯一发现的一类免疫细胞,在维护机体的正常状态上起着重要的作用。小胶质细胞作为中枢神经系统的免疫细胞,它的生活方式会受到周围环境的影响,激活状态与微环境相关,激活后的小胶质细胞有M1和M2两种状态,不同状态的小胶质细胞发挥不同的作用。
这里作者区别了 neonatal(新生的) 和 EAE的Microglia,还有CD11C阳性和阴性。
值得一提的是,在单细胞水平研究小神经胶质细胞(Microglia)动态发育和异质性已经有了不少研究。
- 波士顿儿童医院的研究者们分析了超过76,000个来自于发育、衰老和脑部感染后的小鼠脑部的小胶质细胞,结果表明至少有9种转录特异的小胶质细胞形态,它们可以表达特定的基因集,且位于特定的脑区。发表于免疫学杂志Immunity, doi:10.1016/j.immuni.2018.11.004 (2019).
- 斯坦福大学医学院的研究者采用高深度scRNA测序揭示了小胶质细胞和脑髓细胞的发育异质性,发表于Neuron,这些细胞取自于胚胎期、出生后早期和成年的小鼠不同脑区。我们发现大部分的成年小胶质细胞表达稳定的基因(homeostatic genes),且不同脑区间没有差异。相反,出生后早期的小胶质细胞异质性更高。 doi:10.1016/j.neuron.2018.12.006 (2019).
- 德国弗莱堡大学医学院神经病理学研究所的研究者采用单细胞RNA测序揭示小鼠和人的小神经胶质细胞的空间和时间异质性,成果最近以Letter的形式发表于Nature杂志。doi:10.1038/s41586-019-0924-x (2019).
数据规律
在GEO界面可以看到是17个样本,分布如下:
- orange represents neonatal CD11c+ microglia (n = 4),
- green neonatal CD11c microglia (n = 4),
- blue EAE CD11c+ microglia (n = 3),
- purple EAE CD11c microglia (n = 3),
- black adult microglia (n = 3).
其实就是 neonatal(新生的) 和 EAE的Microglia,还有CD11C阳性和阴性,然后和成年小鼠的Microglia进行比较。
需要注意的是:Microglial markers (Aif1, Itgam, Cx3cr1, Csf1r)
来自于两个参考文献的 (Butovsky et al, 2014; Bennett et al, 2016) signature genes ,主要是(Spi1, Irf8,Olfml3, Hexb, Fcrls, Tgfbr1, P2ry12, Siglech, Tmem119)走WGCNA流程
Co-expression networks were generated for 12,691 genes of the transcriptome dataset.
首先基因分模块:
然后基因形状关联分析:
然后看Module Eigengene (ME) 在不同样本分组的表现:
最后看不同的module的GO/KEGG等数据库的功能注释结果。走分组比较差异分析流程
这里定义统计学显著upregulated genes (logFC ≥ 1.5; FDR ≤ 0.01) ,多次分组比较后就有多个上下调基因集。
差异分析结束后就可以简单韦恩图展现:
基因集的GO/KEGG等数据库的功能注释结果也可以比较后绘图;
安排学徒做数据分析图表重现