看到一篇PLoS One 2014的文章,标题是 Integrated analysis of differential miRNA and mRNA expression profiles in human radioresistant and radiosensitive nasopharyngeal carcinoma cells,很简单的一个研究,就是找NPC和对照的表达差异,涉及到miRNA 和 mRNA 两种分子。
当时那篇文章的研究者关注的是差异表达,根据阈值筛选后总共是 15 differential miRNAs and 372 differential mRNAs ,很简单,表达矩阵的差异分析策略我们多次讲解了。
走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:
- 第一讲:GEO,表达芯片与R
- 第二讲:从GEO下载数据得到表达量矩阵
- 第三讲:对表达量矩阵用GSEA软件做分析
- 第四讲:根据分组信息做差异分析
- 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
- 第六讲:指定基因分组boxplot指定基因list画热图
最后仅仅得到的差异分子,并不是以前的mRNA后面的基因名,而是miRNA,lncRNA,甚至circRNA的ID,看起来很陌生罢了。感兴趣可以细读表达芯片的公共数据库挖掘系列推文 :
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
数据集在GEO上面,如下:
GSE48501 | Gene Expression data from human radioresistant and radiosensitive Nasopharyngeal Carcinoma Cells |
---|---|
GSE48502 | MiRNA Expression data from human radioresistant and radiosensitive Nasopharyngeal Carcinoma Cells |
然后搜索到时隔5年的另外一个发表在 28 May 2019 文章 Comprehensive analysis of key genes and microRNAs in radioresistant nasopharyngeal carcinoma ,重新分析了这两个数据集 GSE48501 and GSE48502 ,主要是关注 373 differentially expressed genes (DEGs) and 14 differentially expressed microRNAs (DEMs) 有差异的,而且居然最简单GEO2R网页工具:
- a total of 373 DEGs were identified in radioresistant NPC cells, including 291 mRNAs were up-regulated and 82 mRNAs were down-regulated.
- 277 miRNAs were detected, 14 of which were differentially expressed with≥1.5 fold-change (t-test, P < 0.05), including 4 up-regulated miRNAs and 10 down-regulated miRNAs.
实际上我完全不理解这样的挖掘意义何在?
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
- 全国巡讲全球听(买一得五),第二期 ,你的生物信息学入门课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路