这个数据内容太多了,我感觉自己也理解的不是很清楚!
非常多的R的bioconductor包都是拿这个数据集来举例子的,所以我简单的介绍一下这个数据集。
这个数据集是对ALL这个病的研究数据,共涉及到了128个ALL病人,其中95个是B细胞的ALL,剩余33个是T细胞的ALL。
是一个芯片数据,同时还包含有其它的病人信息。
大家首先要在R里面安装这个数据集
source("http://bioconductor.org/biocLite.R")
biocLite("ALL")
library(ALL)
data(ALL)
data(geneList)
在R里面输入str(ALL)可以看到这个数据的具体信息,但是非常多!
ALL
ExpressionSet (storageMode: lockedEnvironment)
assayData: 12625 features, 128 samples
element names: exprs
protocolData: none
phenoData
sampleNames: 01005 01010 ... LAL4 (128 total)
varLabels: cod diagnosis ... date last seen (21 total)
varMetadata: labelDescription
featureData: none
experimentData: use 'experimentData(object)'
pubMedIds: 14684422 16243790
Annotation: hgu95av2
我们首先它的BT变量记录的是什么
可以看出它记录的是数据病人的分组信息。
bcell = grep("^B", as.character(ALL$BT))通过这句话可以挑选出B细胞病人
然后我们看看它的ALL$mol.biol变量记录是是什么
可以看到它记录的是这些病人的几种突变情况(molecular biology testing)
types = c("NEG", "BCR/ABL")
moltyp = which(as.character(ALL$mol.biol) %in% types)
用这个命令就能挑选出我们想研究的两组突变的病人。
然后我们还可以把刚才的两个标准用来从ALL数据集里面取想要的子集
ALL_bcrneg = ALL[, intersect(bcell, moltyp)]
同理我们可以查看这个数据集的非常多的变量信息。
包括sex,age,cod,diagnosis,等等,这个'data.frame':共有128 obs. of 21 variables:
我们除了可以查看这个ALL数据集自带的变量,还可以通过一些方法来访问它的其它信息。
Exprs这个方法可以查看它的表达数据,可以看到有128个变量,12625行的探针数据。
str(exprs(ALL))
num [1:12625, 1:128] 7.6 5.05 3.9 5.9 5.93 ...
- attr(*, "dimnames")=List of 2
..$ : chr [1:12625] "1000_at" "1001_at" "1002_f_at" "1003_s_at" ...
..$ : chr [1:128] "01005" "01010" "03002" "04006" ...
还有很多很多函数都可以操作这个数据集,这样可以得到非常多的信息!我就不一一列举了
对这个数据的一系列操作可以画热图,见下面的教程!!!
http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/heatmap/