HTA芯片(学徒探索任务)

年前我们布置过一个 agilent芯片的探索任务,很可惜,没有人接单,也许是得等我某一天遇到了,或者时间充裕了会去解决它吧!现在再来一个疑难杂症吧,就是生不逢时的Affymetrix Human Transcriptome Array 2.0芯片的数据处理。
前面我提到过[HTA-2_0] Affymetrix Human Transcriptome Array 2.0芯片的分析其实挺麻烦的,首先需要搞清楚下面3个平台的差异:

  • GPL17586 [HTA-2_0] Affymetrix Human Transcriptome Array 2.0 [transcript (gene) version]
  • GPL19251 [HuGene-2_0-st] Affymetrix Human Gene 2.0 ST Array [probe set (exon) version]
  • GPL16686 [HuGene-2_0-st] Affymetrix Human Gene 2.0 ST Array [transcript (gene) version]
    HTA芯片设计的时候覆盖了 ~560 k exons and ~340 k exon-exon junctions , 而且比mRNA-Seq 便宜,稳定性好。

    看看TP53这个基因上面的探针设计

    我们在 https://www.easana.com/ 网页搜索,可以看到主要的探针都集中在TP53中间的外显子上面:
    TP53基因上面的HTA芯片探针
    如果具体看探针的坐标,如下:
    一个基因的全部探针的坐标
    可以看到是29个探针,序列也清清楚楚,还可以csv下载,探针主要是集中是e5-e15, 跟TP53基因结构示意图吻合。

    如果以外显子为单位看表达差异

    反正都是表达矩阵,以外显子为单位和基因为单位,理论是差不多啦,没有根据注释文件映射到基因名字之前,都是一个ID而已。在 https://www.easana.com/ 网页可视化如下:
    以外显子为单位看表达差异
    但是这样的示意图肯定没办法发表咯,你可以尝试新的可视化花样。

    关于EASANA

    其实EASANA是商业软件genosplice的一个可视化功能而已,上面的示意图比较好的介绍了HTA芯片的基因的多个探针的表达量差异情况。
    我简单摸索了一下,没有看到人家下载,看样子是需要发邮件给这个商业软件的销售人员一对一的讲解和获取。一般来说,这样的软件在中国大陆是没有市场的, 所以干脆略过了。

    实际上affymetrix公司自己有TAC软件

    比如有一些文章里面就会明确写出来,采用的是affymetrix公司出品的软件 TAC进行处理。一般来说,购买的如果是商业公司提供的芯片服务,肯定是会有配套的数据分析。可惜的是,大多数情况下,真心想用好HTA芯片数据的小伙伴并不是购买服务的人,而是想挖掘它背后价值的。
    TAC软件
    可以看到这个软件有一个探索可变剪切的模块,而且这个也的确是大量使用了HTA芯片的文章写作落脚点。如果你发现你的领域有一个公共数据库就是HTA芯片,但是创造数据集的研究者们并没有落脚到可变剪切。那么你就应该是意识到,这可能是你可以努力的方向。

    另外一个商业软件partek也很流行

    partek这个软件应该是在海外非常流行,我看到不少文献提到了partek,甚至跟affymetrix公司出品的软件 TAC差不多的使用频率。
    image-20200205121009699
    当然了,具体我也没有用过啦。

    学徒作业

    跟agilent芯片一样,agilent芯片需要摸索使用 Agi4x44PreProcess包完成E-MTAB-3017数据集的表达矩阵获取。当然了,也可以根据分组,走一下差异分析标准代码。
    而我们的HTA芯片,也是需要摸索一个包,好像还在GitHub上面,就是EventPointer,Romero et al. BMC Genomics (2016) 17:467 DOI 10.1186/s12864-016-2816-x 有时间,又想做一些挑战性的数据分析的朋友可以考虑入坑!
    标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:

  • 第一讲:GEO,表达芯片与R
  • 第二讲:从GEO下载数据得到表达量矩阵
  • 第三讲:对表达量矩阵用GSEA软件做分析
  • 第四讲:根据分组信息做差异分析
  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
  • 第六讲:指定基因分组boxplot指定基因list画热图
    感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;
  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够
  • 从GEO数据库下载得到表达矩阵 一文就够
  • GSEA分析一文就够(单机版+R语言版)
  • 根据分组信息做差异分析- 这个一文不够的
  • 差异分析得到的结果注释一文就够

Comments are closed.