主页:http://www.bioconductor.org/
文字介绍我懒得写了,具体大家参考
http://www.bioconductor.org/about/
http://blog.csdn.net/shmilyringpull/article/details/8542607
这是一个R语言进行生信分析的流程发布平台,每个包都解决生信的一个流程问题。到目前为止2015年5月5日10:57:29已经有了1024个包,所以大家可以看到生信分析是一个海量的任务了。每一个包都有着详尽的说明文档及脚本代码,还附带着数据,非常容易弄懂,接下来我会花一个月的时间好好学习这些包!
这1024个虽然还是R语言的包,但是它的安装方式与常规的R语言包已经有所区别了。
需要用一下代码来安装
source("http://bioconductor.org/biocLite.R")biocLite()
biocLite(c("GenomicFeatures", "AnnotationDbi"))
也是非常easy的。
现在这个平台上面有1024个包,241个实验数据,917个数据库文件!!!
We are pleased to announce Bioconductor 3.1,
consisting of 1024 software packages,
241 experiment data packages,
and 917 up-to-date annotation packages.
在MOOC上面有很多关于这个的公开课
http://bioconductor.org/help/course-materials/
这里面有很多生信方向的分析流程,包括了我之前提到了snp-calling,RNA-seq,CHIP-seq等等,当然最主要的还是芯片数据的处理。
Common Bioconductor workflows include:
- Oligonucleotide Arrays
- High-throughput Sequencing
- Counting Reads for Differential Expression(parathyroideSE vignette)
- Annotation
- Annotating Variants
- Annotating Ranges
- Flow Cytometryand other assays
- Candidate Binding Sites for Known Transcription Factors
- Cloud-enabled cis-eQTL search and annotation
- RNA-Seq workflow: gene-level exploratory analysis and differential expression
- Changing genomic coordinate systems with rtracklayer::liftOver
- Mass spectrometry and proteomics data analysis
这些流程基本上涉及到了现在生物信息学的主流方向,所以基本上掌握了这些包,就是一个合格的生物信息学人才啦!
更重要的是它有着917个数据库文件,里面的信息分门别类,几乎可以算作是生物信息学的百科全书啦!
主要的数据库包括以下。
Package | Description |
AnnotationHub | Ensembl, Encode, dbSNP, UCSC data objects |
biomaRt | Ensembl and other annotations |
PSICQUIC | Protein interactions |
uniprot.ws | Protein annotations |
KEGGREST | KEGG pathways |
SRAdb | Sequencing experiments. |
rtracklayer | genome tracks. |
GEOquery | Array and other data |
ArrayExpress | Array and other data |