27 | 8月 | 2015 | 生信菜鸟团

bioconductor系列的包都是一样的安装方式：

source("http://bioconductor.org/biocLite.R")
biocLite("ConsensusClusterPlus")

这个包是我见过最简单的包，加载只有做好输入数据，只需要一句话即可运行，然后默认输出所有结果

http://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html

http://www.bioconductor.org/packages/release/bioc/vignettes/ConsensusClusterPlus/inst/doc/ConsensusClusterPlus.pdf

读这个包的readme，很容易学会

就是做好一个需要来进行分类的样品的表达量矩阵。或者选择上一篇日志用GEOquery这个包下载的表达量矩阵也可以进行分析

因为这个包是用ALL数据来做测试的，所以可以直接加载这个数据结果，这样就能得到表达矩阵啦

library(ALL)

data(ALL)

d=exprs(ALL)

d[1:5,1:5]

可以看到数据集如下

> d[1:5,1:5]

01005 01010 03002 04006 04007

1000_at 7.597323 7.479445 7.567593 7.384684 7.905312

1001_at 5.046194 4.932537 4.799294 4.922627 4.844565

1002_f_at 3.900466 4.208155 3.886169 4.206798 3.416923

1003_s_at 5.903856 6.169024 5.860459 6.116890 5.687997

1004_at 5.925260 5.912780 5.893209 6.170245 5.615210

> dim(d)

[1] 12625 128

共128个样品，12625个探针数据

也有文献用RNAs-seq的RPKM值矩阵来做

对上面这个芯片表达数据我们一般会简单的进行normalization ，然后取在各个样品差异很大的那些gene或者探针的数据来进行聚类分析

mads=apply(d,1,mad)

d=d[rev(order(mads))[1:5000],]

d = sweep(d,1, apply(d,1,median,na.rm=T))

#也可以对这个d矩阵用DESeq的normalization 进行归一化，取决于具体情况

library(ConsensusClusterPlus)

#title=tempdir() #这里一般改为自己的目录

title="./" #所有的图片以及数据都会输出到这里的

results = ConsensusClusterPlus(d,maxK=6,reps=50,pItem=0.8,pFeature=1,

title=title,clusterAlg="hc",distance="pearson",seed=1262118388.71279,plot="png")

这样就OK了，你指定的目录下面会输出大于9个图片

大家看看说明书就知道这个包的输出文件是什么了。

很多参数都是需要调整的，一般我们的maxK=6是根据实验原理来调整，如果你的样品应该是要分成6类以上，那么你就要把maxK=6调到一点。

查看结果results[[2]][["consensusClass"] 可以看到各个样品被分到了哪个类别里面去

results[[3]][["consensusClass"]

results[[4]][["consensusClass"] 等等

bioconductor系列的包都是一样的安装方式：

source("http://bioconductor.org/biocLite.R")
    biocLite("GEOquery")

以前GEO数据库主要是microarray的芯片数据，后来有了RNA-seq，如果同时做多个样品的RNA-seq，表达量矩阵后来也可以上传到GEO数据库里面，只有看到文献里面有提到GEO数据库，都可以通过这个R包俩进行批量下载，其实就是网页版的一个API调用而已：

GEO数据库里面有四种数据

At the most basic level of organization of GEO, there are four basic entity types.

The first three (Sample, Platform, and Series) are supplied by users;

the fourth, the dataset, is compiled and curated by GEO sta from the user-submitted data.

GEO accession number (GPLxxx).

GEO accession number (GSMxxx)

GEO accession number (GSExxx).

GEO DataSets (GDSxxx)

记住大小关系：一个GDS可以有多个GSM，一个GSM可以有多个GSE，至于GPL，一般不接触的

我们通常接触的都是GSE系列（一个GSE里面有多个GSM）的数据，而且这个包最重要的就是一个getGEO函数。

只要你通过文献确定了你的检索号，就可以通过这个函数来下载啦

检索号一般是A character string representing a GEO object for download and

parsing. (eg., 'GDS505','GSE2','GSM2','GPL96'

这个函数有很多参数，除非你需要下载的文件，那么就设置destdir到你喜欢的目录，如果只需要表达量数据就不用了。

getGEO(GEO = NULL, filename = NULL, destdir = tempdir(), GSElimits=NULL,

GSEMatrix=TRUE,AnnotGPL=FALSE)

例如：

gds <- getGEO("GDS10") 会返回一个对象，而且下载数据一般会在tmp目录下面，当然如果你需要保存这些文件，你可以自己制定下载目录及文件名。

gse2553 <- getGEO("GSE2553")

GDS2eSet函数可以把上面这个下载函数得到的对象(要确定是GDS而不是GSE)变成表达对象

pData和exprs函数都可以处理上面这个表达对象，从而分别得到样品描述矩阵和样品表达量矩阵

综合一起就是

g4100 <- GDS2eSet(getGEO("GDS4100"))
g4102 <- GDS2eSet(getGEO("GDS4102"))
e4102<-exprs(g4102)
e4100<-exprs(g4100)

这样的代码，这个e4100和e4102就都是一个数值矩阵啦，可以进行下游分析，但是如果是下载的GSM数据

就用下面这个代码，GSE26253_series_matrix.txt是通过GSEMatrix=TRUE这个参数特意下载到你的目录的

expr_dat=read.table("GSE26253_series_matrix.txt",comment.char="!",stringsAsFactors=F)

这样读取也是一个数值矩阵

具体大家可以看这个包的说明书

#Download GDS file, put it in the current directory, and load it:
gds858 <- getGEO('GDS858', destdir=".")
如果使用了GSEMatrix=TRUE这个参数，那么除了下载soft文件，还有表达量矩阵文件，可以直接用read.table读取那个文件。
#Or, open an existing GDS file (even if its compressed):
gds858 <- getGEO(filename='GDS858.soft.gz')
下面这个下载的是GSE对象，GDS对象还有大一点

参考：http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/geo/

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Daily Archives: 2015年8月27日

根据基因表达量对样品进行分类ConsensusClusterPlus

从GEO数据库下载矩阵数据-可以直接进行下游分析

2015年8月
一	二	三	四	五	六	日
« 七				九 »
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31