这5个miRNA组成的肺鳞癌诊断基因集在tcga数据库能复现吗

最近看到某公司宣传他们的科研服务产品,是miRNA的芯片,而且文章居然是2011发表的,那个时候我还不知道生信是啥子。(我一直以为自己足够老了)

该研究使用的是 CapitalBio 平台 (CapitalBio 公司) 芯片,非常清晰的研究思路;

  • 60+88个肺鳞癌病人肿瘤组织和癌旁的miRNA芯片表达矩阵,数据集在:GSE15008
  • 芯片是 CapitalBio 平台 (CapitalBio Corp.) ,包含 924 mature mam- malian microRNA probes (including 677 human micro- RNA sequences),现在miRBase数据库收录了1917条pre-miRNA(前体),以及2656条成熟的miRNAs。(见:http://www.mirbase.org/
  • 使用主成分分析和支持向量机建模,拿到 minimal 5- element classifier (hsa-miR-210, hsa-miR-182, hsa-miR- 486-5p, hsa-miR-30a, and hsa-miR-140-3p) 可以很好的区分normal和tumor。
  • 生存分析发现:high expression of hsa-miR-31 was associated with poor survival
  • 分析hsa-miR-31 的靶基因,并且实验验证其中3个:DICER1, PPP2R2A, and LATS2,最后定位到DICER1 30-UTR

我以前在生信技能树分享了几个miRNA的靶向基因的查询工具,分别是:

大家可以尝试看看hsa-miR-31 的靶基因,是否有这3个基因,示意图如下:

miRNA靶向调控示意图

学徒作业

大家可以去tcga数据库下载肺鳞癌的miRNA芯片或者测序数据,走同样的诊断建模流程,看看得到的miRNA是否作者的5个miRNA有交叉,这里面变量很多:

  • 首先,两个队列的人群地域差异
  • 其次,miRNA芯片和miRNA测序技术差异
  • 还有,肿瘤组织和癌旁配对问题,两个组数据量问题

对大家来说,比较难的地方就是使用主成分分析和支持向量机建模。可以参考我的4个小时TCGA肿瘤数据库知识图谱视频教程,其中总共使用了四种算法构建模型:

不管用了那种算法,核心都只是几句代码而已。

点击下面的阅读原文,马上就可以学习起来啦~

https://www.bilibili.com/video/BV1db411L7GX

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:

Comments are closed.