把一篇plosone数据挖一波有意思吗

看到一篇PLoS One 2014的文章,标题是 Integrated analysis of differential miRNA and mRNA expression profiles in human radioresistant and radiosensitive nasopharyngeal carcinoma cells,很简单的一个研究,就是找NPC和对照的表达差异,涉及到miRNA 和 mRNA 两种分子。

当时那篇文章的研究者关注的是差异表达,根据阈值筛选后总共是 15 differential miRNAs and 372 differential mRNAs ,很简单,表达矩阵的差异分析策略我们多次讲解了。

标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:

  • 第一讲:GEO,表达芯片与R
  • 第二讲:从GEO下载数据得到表达量矩阵
  • 第三讲:对表达量矩阵用GSEA软件做分析
  • 第四讲:根据分组信息做差异分析
  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
  • 第六讲:指定基因分组boxplot指定基因list画热图

最后仅仅得到的差异分子,并不是以前的mRNA后面的基因名,而是miRNA,lncRNA,甚至circRNA的ID,看起来很陌生罢了。感兴趣可以细读表达芯片的公共数据库挖掘系列推文 :

数据集在GEO上面,如下:

GSE48501 Gene Expression data from human radioresistant and radiosensitive Nasopharyngeal Carcinoma Cells
GSE48502 MiRNA Expression data from human radioresistant and radiosensitive Nasopharyngeal Carcinoma Cells

然后搜索到时隔5年的另外一个发表在 28 May 2019 文章 Comprehensive analysis of key genes and microRNAs in radioresistant nasopharyngeal carcinoma ,重新分析了这两个数据集 GSE48501 and GSE48502 ,主要是关注 373 differentially expressed genes (DEGs) and 14 differentially expressed microRNAs (DEMs) 有差异的,而且居然最简单GEO2R网页工具:

  • a total of 373 DEGs were identified in radioresistant NPC cells, including 291 mRNAs were up-regulated and 82 mRNAs were down-regulated.
  • 277 miRNAs were detected, 14 of which were differentially expressed with≥1.5 fold-change (t-test, P < 0.05), including 4 up-regulated miRNAs and 10 down-regulated miRNAs.

实际上我完全不理解这样的挖掘意义何在?

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

Comments are closed.