CpG Islands记录文件下载的4种方式

这个也是读者来信最多的,关于基因组某些区域的起始终止坐标的下载问题,genomic feature的问题,一般是gtf文件或者bed文件,比如人类hg19上面的所有外显子的坐标记录文件,所有基因的坐标记录文件,所有lncRNA,rRNA等等,我这里拿CpG Islands记录文件下载的4种方式举例子给大家说明一下:

自己先理解几个概念:CpGI, CpG Shore, CpG shelf regions
最简单的首推UCSC的table browser(https://genome-euro.ucsc.edu/cgi-bin/hgTables),而且以BED格式文件格式输出(是普通的文本数据)
BED (Browser Extensible Data) format provides a flexible way to define the data lines that are displayed in an annotation track
下面是一个简单的实例,获取mm10的 CpG island 的坐标记录文件,根据你的需求,实时创建一个文件:
如果你足够聪明的话,应该明白,上面的选项任意组合,是可以现在各种记录文件的,包括基因的坐标,外显子的坐标,转录本的坐标,等等。
3
然后就是直接去ftp网站里面寻找文件下载, http://hgdownload.soe.ucsc.edu/downloads.html. Click on "Human" then "Annotation Database", and finally "cpgIslandExt.txt.gz" 其实就是修改url即可:
在里面搜索文件即可,可以看到,两种方法下载的数据是一样的,而且mouse已知的cpgIsland,要比人类少很多,应该是mouse的研究不够透彻
当然ensembl数据库的biomart界面也可以做同样的事情,
最后,biomart还有一个biomaRt的R包也可以。
4种方法,就讲解完毕啦!
另外,强烈推荐R里面的genomic features相关的包,非常好学,学完了受益无穷!~~
本质上,就是理解TxDb和GenomicRanges对象而已。
## https://www.bioconductor.org/packages/devel/data/annotation/?TxDb
?GenomicRanges

library(TxDb.Mmusculus.UCSC.mm10.knownGene)
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
library(EnsDb.Hsapiens.v75)
library(EnsDb.Mmusculus.v79)
ls('package:EnsDb.Mmusculus.v79')

library(BSgenome.Hsapiens.UCSC.hg19.masked)
library(BSgenome.Hsapiens.UCSC.hg19)

library(EnsDb.Hsapiens.v75)
annoData <- genes(EnsDb.Mmusculus.v79)
annoData[1:2];length(annoData)
ranges(annoData[1:2])

txdb <- TxDb.Mmusculus.UCSC.mm10.knownGene
txdb_dump <- as.list(txdb)
txdb_dump$genes

subtract 2000bp and add 2000 to the CpG island region to get CpG shore regions

Comments are closed.