前面讲到affy处理的芯片平台是有限的,一般是hgu 95系列和133系列,[HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array这个平台虽然也是affymetrix公司的,但是affy包就无法处理 了,这时候就需要oligo包了!
oligo包是R语言的bioconductor系列包的一个,就一个功能,读取affymetix的基因表达芯片数据-CEL格式数据,处理成表达矩阵!!!
同理,我们也是要下载原始数据:一个例子:GSE48452
下载之后,解压到指定目录,就可以直接用oligo包啦!
geneCELs=list.celfiles('/path/GSE48452/cel_files/',listGzipped=T,full.name=T)#用全路径,一般cel文件也是压缩包形式,没必要解压affyGeneFS <- read.celfiles(geneCELs) ##读取cel文件geneCore <- rma(affyGeneFS, target = "core") ##这一步是normalization,会比较耗时genePS <- rma(affyGeneFS, target = "probeset")#两种normlization的方法,##一般我们会选择transcript相关的## 这个芯片平台还需要自己把探针ID赋值给表达矩阵featureData(genePS) <- getNetAffx(genePS, "probeset")featureData(geneCore) <- getNetAffx(geneCore, "transcript")## 探针ID还需要注释到基因ID,这里就不讲了!
处理之后得到的表达矩阵应该是与GEO官网的一致,大家可以自己对照检查一下:
ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE48nnn/GSE48452/matrix/GSE48452_series_matrix.txt.gz