如果你想分析的表达矩阵芯片全世界只有15个发表的研究

通常我们讲解GEO数据挖掘,指的是表达芯片数据处理,其中一个难点就是芯片设计的探针跟我们感兴趣的基因的对应关系,之所以说它是难点,就是背景知识太多,初学者无从了解。
而且部分芯片,使用的人就非常少,你想学习前人的数据分析策略, 都很难,你应该是会很奔溃吧,比如我们之前介绍过的 [HuGene-2_0-st] Affymetrix Human Gene 2.0 ST Array [probe set (exon) version] 是affy公司非常新的一款产品,全世界就15个发表的研究:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL19251
image-20191022114447799

关于human Transcriptome Array 2.0(HTA 2.0)芯片

丰富的基因涵盖度以及深度的探针覆盖,完成编码RNA、长片段非编码RNA(lncRNA)及可变剪切方面的应用。
| 编码基因 | 数量 | 非编码基因 | 数量 |
| —————— | ———- | ——————— | ———- |
| 基因数 | 44,699 | 基因数 | 22,829 |
| 转录本数 | 245,349 | 转录本数 | 40,914 |
| 外显子数 | 560,472 | 外显子数 | 109,930 |
极高的探针覆盖度:

  • 每个外显子平均设计10条探针
  • 相邻两个外显子之间的剪接序列设计4条探针
  • 每个基因平均设计探针达到140条
    看到文章,包含在可变剪切方面,长链非编码RNA研究方面,以及在表达谱差异化基因研究方面:
  • SF3B1 Mutations Are Associated with Alternative Splicing in Uveal Melanoma. Cancer Discovery(2013), IF= 10.143.该文利用原发性葡萄膜黑色素瘤样本,发现利用HTA 2.0芯片可以寻找到8个可变剪切事件,而测序最多寻找到了其中的5个!
  • THE STAT3-BINDING LONG NONCODING RNA LNC-DC CONTROLS HUMAN DENDRITIC CELL DIFFERENTIATION. SCIENCE(2014), IF= 31.027. 该文为第二军医大学曹雪涛院士利用HTA 2.0芯片发现发现一种名为 lnc-DC 的长链非编码 RNA 控制了人类树突状细胞的分化。
  • Evaluation of Cancer Stem Cell Markers CD133, CD44, CD24: Association with AKT Isoforms and Radiation Resistance in Colon Cancer Cells. Plos One(2014), IF=3.73.该文应用HTA 2.0芯片研究了肿瘤干细胞群marker的表达谱水平与抗辐射能力相联系,为临床中以AKT作为靶点的临床研究提供了一个参考

    有什么办法呢?

    其实也没有什么好办法,怎么可能会有人是什么数据都会分析呢?我们能教的,大家应该学的,其实主要是学习方法,每个人都会有自己的困难,自己的困难别人是无法替你克服的!
    但是呢,这15篇文章你都不去看,我就只能骂你了!

Comments are closed.