没有生物学背景的数据分析很危险

前些天我在介绍GEO数据挖掘技术应用到RNA-seq数据分析的推文:GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序 布置了一个作业:下载到GSE106292 数据集的 Excel表格如何读入R里面,做出作者文章的那样的图,可以参考关键问题答疑:
WGCNA的输入矩阵到底是什么格式
,详细教程见:一文看懂WGCNA 分析(2019更新版)
本来以为是很简单,但是十万粉丝里面,我只收到了13份作业,可怜的13份答卷里面,还有5个是错的!其中大家错的最离谱的就是,搞不清楚文中的WGCNA针对的5个分组到底是什么!

首先关注原文WGCNA图

下面的5个分组,都是英文专有名词,大家不理解其实是很正常的,没有人什么生物学背景都精通。

如果你下载到GSE106292 数据集的 Excel表格,就会发现,作者的分组其实很诡异!

bone, tendon, muscle, ligament 但是呢,很明显并不是原文的WGCNA里面的:hondrocytes, osteoblasts, myoblasts, tenocytes and ligamentocytes ,如果没有背景知识,就很难办!

文章里面,也是,这5个分组,并不是 hondrocytes, osteoblasts, myoblasts, tenocytes and ligamentocytes

需要细读文章

文章描述WGCNA的段落是:

Here we implemented RNA sequencing to generate cell type- specific transcriptomes for chondrocytes, osteoblasts, myoblasts, tenocytes and ligamentocytes at 17 weeks post-conception (WPC) of human development. We then employed Weighted Gene Co- expression Network Analysis (WGCNA) to define tissue-specific gene modules that represent each cell type.
也就是说,都是 17 weeks post-conception (WPC) ,那么我们的表达矩阵的样本名字里面,的确没有这个肿么办!
当然,就需要祭出我们的大杀器了,GEO数据挖掘流程:

library(GEOquery)
gset <- getGEO('GSE106292')
pd=pData(gset[[1]])

就这么简单,就拿到了文章所有的样本的表型信息啦!

感兴趣细节的可以自己去研读挖掘系列推文;

Comments are closed.