Bioconductor系列包的安装方法都一样
source("http://bioconductor.org/biocLite.R")biocLite(“GenomicFeatures”)
安装成功之后就可以找到这个包自带的pdf说明书。
先简单回顾一下这个包的用法,在前面的日志里面我重点讲解了txdb对象,就是这个包的重点。
## ----loadGenomicFeatures----------------------------------------------------------------
library("GenomicFeatures")
第一种方法构建txdb对象,从本地读取数据库文件,支持sqlite数据库。
## ----loadDb-----------------------------------------------------------------------------
samplefile <- system.file("extdata", "hg19_knownGene_sample.sqlite",
package="GenomicFeatures")
txdb <- loadDb(samplefile)
txdb
第二种方法构建txdb对象,安装独立的包
## ----loadPackage------------------------------------------------------------------------
biocLite("TxDb.Hsapiens.UCSC.hg19.knownGene") #每个物种都有类似的包
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene #shorthand (for convenience)
Txdb
R语言里面的数据库都支持select函数操作,包括前面讲解的biomaRt和db型数据库
## ----selectExample----------------------------------------------------------------------
Version:1.0 StartHTML:0000000105 EndHTML:0000003832 StartFragment:0000000127 EndFragment:0000003814
> library(TxDb.Hsapiens.UCSC.hg19.knownGene)
> txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene #shorthand (for convenience)
> txdb
TxDb object:| Db type: TxDb| Supporting package: GenomicFeatures| Data source: UCSC| Genome: hg19| Organism: Homo sapiens| UCSC Table: knownGene| Resource URL: http://genome.ucsc.edu/| Type of Gene ID: Entrez Gene ID| Full dataset: yes| miRBase build ID: GRCh37| transcript_nrow: 82960| exon_nrow: 289969| cds_nrow: 237533| Db created by: GenomicFeatures package from Bioconductor| Creation time: 2014-09-26 11:16:12 -0700 (Fri, 26 Sep 2014)| GenomicFeatures version at creation time: 1.17.17| RSQLite version at creation time: 0.11.4| DBSCHEMAVERSION: 1.0
> keys <- c("100033416", "100033417", "100033420")
> columns(txdb)
[1] "CDSID" "CDSNAME" "CDSCHROM" "CDSSTRAND" "CDSSTART" "CDSEND" "EXONID" "EXONNAME" "EXONCHROM" "EXONSTRAND" "EXONSTART" "EXONEND" [13] "GENEID" "TXID" "EXONRANK" "TXNAME" "TXCHROM" "TXSTRAND" "TXSTART" "TXEND"
> keytypes(txdb)
[1] "GENEID" "TXID" "TXNAME" "EXONID" "EXONNAME" "CDSID" "CDSNAME"
> select(txdb, keys = keys, columns="TXNAME", keytype="GENEID")
GENEID TXNAME1 100033416 uc001yxl.42 100033417 uc001yxo.33 100033420 uc001yxr.3
必须要看仔细这个包所支持的columns和keytypes,严格字符串相等才能进行数据库查询操作。
还有之前我讲过的genes,transcripts,exons,cds等函数作用于txdb对象都会生成Granges对象。
当然还有transcriptsBy(),exonsBy()等函数作用于txdb对象都会生成Granges 对象。
还有几个函数是我之前没有讲到的,找到所有转录本的内含子,5端或者3端的UTR序列,也是生成Granges 对象。
## ----introns-UTRs-----------------------------------------------------------------------
length(intronsByTranscript(txdb))
length(fiveUTRsByTranscript(txdb))
length(threeUTRsByTranscript(txdb))
上面简单的介绍了这个包的使用方法,关于这个包的一些应用,就要与其它一些包结合起来看了,我先把另外两个包给讲完了,再讲综合应用