前面我们在《生信技能树》平台举办了各种ID转换相关的公开课,而且有几十个教程详细介绍了我们的一个综合性的包:
library(devtools)
install_github("jmzeng1314/AnnoProbe")
library(AnnoProbe)
gpl='GPL16956'
probe2gene=idmap(gpl,type = 'pipe')
head(probe2gene)
超级简单,就可以拿到绝大部分GPL芯片平台的探针注释到基因的信息,即使是在中国大陆网络很差的地方,也可以:
library(remotes)
url='https://gitee.com/jmzeng/annoprobe.git'
install_git(url)
相关教程合辑见:
- 1.拟南芥的基因ID批量转换?差异基因,GO/KEGG数据库注释(转录组直接送你全套流程)
- 2.第一个万能芯片探针ID注释平台R包
- 3.第二个万能芯片探针ID注释平台R包
- 4.第三个万能芯片探针ID注释平台R包
- 5.基因类型注释根据基因ID就好了
- 6.芯片探针ID的基因注释以前很麻烦
- 7.TCGA ID 转化的小插曲
- 8.ID转换大全
- 9.下载所有芯片探针序列并且写成fasta文件
- 10.(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释
- 11.你希望这个探针注释到蛋白编码基因还是miRNA的基因呢
- 12.3种方法注释你的甲基化探针
- 13.芯片明明设计了近6万探针但是作者上传的表达矩阵仅1万多个
- 14.多个探针对应同一个基因取最大表达量探针极简代码
- 15.多个探针对应一个基因,取平均值或者最大值
- 16.多个探针对应同一个基因取最大值的代码进化历史
- 17.多个探针对应同一个基因到底该如何取舍
- 18.是人是鼠,你心里没有数?GPL21827之谜
- 19.GEO表达芯片平台 — GPL14951,注释文件探索过程
- 20.GPL平台的soft文件提供的注释信息到底准确吗
- 21.gpl16699平台的探针注释到基因名(十一月学徒投稿)
- 22.芯片的探针ID找到基因名-基于R语言-一文就够
- 23.从ensembl的ID到其转录本坐标
- 24.使用R语言获取人类所有基因的名字,ID,symbol以及别名
- 25.超精华生信ID总结,想踏入生信大门的你-值得拥有
- 26.尝试中国区的GitHub
但是总接收到各种各样的反馈,说使用我们的AnnoProbe报错,其实是他自己的芯片平台太小众,我们不可能也没有这个精力为GEO数据库的全部GPL整理信息,其实就一百多个而已。
比如某个学生反馈的芯片是:Arraystar Human LncRNA microarray V2.0 (Probe Name version)
链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL18084 我简单搜索了一些,居然···
也就是说,这么多年过去了,这个芯片就一个研究使用了它而已。那,肯定是不在我的服务范围啊!
其实它提供了两个信息,都是可以去定位到基因名字的,首先是SEQUENCE,其次是 GenBank Accession number ,如下所示:
这两个信息,都是可以定位到基因名字的,只不过呢,对于初学者来说,有门槛!