28

4种方式下载roadmap计划的所有数据

精选的129个细胞系,细胞系的介绍如下:http://www.broadinstitute.org/~anshul/projects/roadmap/metadata/EID_metadata.tab
对每个细胞系,都至少处理了5个核心组蛋白修饰数据,还有其它若干转录因子数据。
官网介绍的很详细,我就不翻译了:

Continue reading

28

6种方式下载ENCODE计划的所有数据

DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)ENCODE计划的重要性我就不多说了,如果大家还不是很了解,可以直接跳到本文末尾去下载一下ENCODE教程,好好学习。该计划采用以下几种高通量测序技术来刻画了超过100种不同的细胞系或者组织内的全基因组范围内的基因调控元件信息。本来只是针对人类的,后来对mouse以及fly等模式生物也开始测这些数据并进行分析了, 叫做 modENCODE
  • chromatin structure (5C)
  • open chromatin (DNase-seq and FAIRE-seq)
  • histone modifications and DNA-binding of over 100 transcription factors (ChIP-seq)
  • RNA transcription (RNAseq and CAGE)

Continue reading

26

用UCSC提供的Genome Browser工具来可视化customTrack

customTrack,我这里翻译为自定义的测序片段示踪文件,可以追踪我们的reads到底比对到了参加基因组的什么区域,或者追踪参考基因组的各个区域的覆盖度,测序深度!翻译自:http://genome.ucsc.edu/goldenPath/help/customTrack.html  这个非常有用!!!
UCSC提供的Genome Browser工具非常好用,可以很方便的浏览我们的测序数据在参考基因组的比对情况,由于定义好了一系列track的文件格式,用户可以非常方便的上传自己的track文件,但是如果用户超过48小时没有浏览自己的数据,UCSC会默认删除掉这些数据,除非用户已经保存在session里面。或者用户可以分享这些自定义的reads示踪文件customTrack。

Continue reading

26

wig、bigWig和bedgraph文件详解

我们一般会熟悉sam/bam格式文件,就是把测序reads比对到参考基因组后的文件!bam或者bed格式的文件主要是为了追踪我们的reads到底比对到了参加基因组的什么区域,而UCSC规定的这几个文件格式(wig、bigWig和bedgraph)用处不一样,仅仅是为了追踪参考基因组的各个区域的覆盖度,测序深度!而且这些定义好的文件,可以无缝连接到UCSC的Genome Browser工具里面进行可视化!
这个网站提供了这几种数据格式的构造及转换脚本:http://barcwiki.wi.mit.edu/wiki/SOPs/coordinates
对SE数据,可以用macs2 pileup --extsize 200 -i $sample.bam -o $sample.bdg 把bam文件转换为bedgraph文件,不需要call peaks这一步骤。
而UCSC的ftp里面可以下载bedGraphToBigWig $sample.bdg ~/reference/genome/mm10/mm10.chrom.sizes $sample.bw 把bedgraph文件转换为bw文件,其余的转换工具都可以下载。

Continue reading

14

ChIP-Seq文献数据重新分析解读第二例

这篇文章是朋友推荐的, 我觉得作为CHIP-seq学习材料再好不过了,所以推荐给大家。是全基因组范围的BRCA1和PALB2的转录共激活机制的探究。请务必先看我的CHIP-seq自学系列教程,跟着好好学习!数据如下:
GSM997540    BRCA1    SRR553473.sra    Read 18878514 spots
GSM997541    PALB2    SRR553474.sra    Read 17615498 spots
GSM997542    P_Ser2    SRR553475.sra    Read 35396009 spots

Continue reading

14

讨论-用高通量测序方法研究sepsis

估计很多小伙伴都没有听过sepsis,现在翻译成中文是脓毒病,很多人会把它与那个缺乏维他命C的败血症混淆,其实完全不一样,因为sepsis致死率非常高!

sepsis [ˈsepsɪs] ['sepsɪs]
n. 脓毒病; 脓毒疾;
[例句]This may be of value in the treatment of meningitis and sepsis.
这可能会在治疗脑膜炎和败血症上有一定价值。

Continue reading

14

我也想开个公司(下)

自从我写了那篇关于创业的想法的文章后,传送门:  我也想开个公司(上)  , 很多熟悉的朋友,还有不少陌生的朋友都给我来信,跟我讨论我的想法,尤其是几个海外的朋友特别热情,我们深度的讨论了创建自由职业者联盟的可行性,公司如何活下去,盈利点是什么,什么样的价值观才能铸就百年企业等各种话题,可能我们在创业这个领域都还是蹒跚学步的状态,但是大家的热心帮助让我很感动,这也坚定了我继续做知识传播者的想法。我这里简单分享一下我们讨论的几个公司战略方向,因为我还有四五年的博士生涯要度过,暂时无法全心全意的发展事业,如果有人看到了也想朝这个方向发展,我可以免费做咨询服务,我非常乐意看到有人能实现我的想法。 Continue reading

13

ChIP-Seq文献数据重新分析解读第一例

文章是:Genome-wide maps of H3K4me2/3 in prostate cancer cell line LNCaP,数据在GEO可以下载。GSE20042,下面的所有分析,需要26G的空间。
作者想看看用 dihydrotestosterone (雄激素)处理了 cancer cell line LNCaP 这个细胞系之后,看看组蛋白甲基化修饰变化,主要是看H3K4me2和H3K4me3这两种组蛋白甲基化区别,分成三组,分别是处理前,处理后4H和16H,共有5个条件的数据,但是有7个fastq文件。
12

转录组 de novo流程–包括转录本完整注释

有网友咨询过对于没有参考基因组或者转录组的物种,如何做RNA-seq分析。我觉得这个问题太大了,而且我还真的对这个没有经验。但是我以前看到过一篇文献,里面提到过一个非常全面的转录组 de novo组装注释流程,所以我摘抄了文章里面的生物信息学处理部分,分享给大家: Continue reading

08

自学lncRNA-seq数据分析第一讲~学习大纲

lncRNA分析跟常见的mRNA-seq分析重合度很高,无非也是把测序的fastq文件mapping到参加基因组,获取转录本信息,转录本表达定量,表达量的差异分析,比较新的分析就是把转录本分成了lncRNA和mRNA,这样可以考虑它们之间的互相作用,也可以在实验设计的时候加入miRNA和CHIP-seq,这样多种数据结合分析,显得更高大上一点,也能更好的刻画机体状态,从而回答生物学假设,我这里先列出我的自学大纲,如果有朋友想跟着我学习,可以发email给我,我的邮箱是jmzeng1314,是163邮箱,发信给我前,先看如果你希望我回答你的问题 这篇文章:

Continue reading

08

基因组标准注释文件-Gencode数据库

Gencode数据库是ENCODE计划的衍生品,也是由大名鼎鼎的sanger研究所负责整理和维护,主要记录了基因组的功能注释,比如基因组每条染色体上面有哪些编码蛋白的基因,哪些假基因,哪些lncRNA的基因,它们坐标是什么,基因上面的外显子内含子坐标是什么,UTR区域坐标是什么?我以前通常是在EBI的ENSEMBL的FTP服务器下载,后来才发现了这个Gencode数据库,现在以这个为金标准啦!

Continue reading

07

使用CEAS软件来对CHIP-seq的peaks进行

哈佛刘小乐实验室出品的软件,可以跟MACS软件call到的peaks文件无缝连接,实现peaks的注释以及可视化分析
该软件的主页里面很清楚的介绍了它可以做的图,以及每个图的意义:http://liulab.dfci.harvard.edu/CEAS/usermanual.html
我这里简单讲一下该软件如何安装以及使用,我这里还是使用我们的CHIP-seq分析系列教程的测试数据。

Continue reading

07

用网页版工具GREAT来对CHIP-seq的peaks进行下游功能分析

一般做完一个CHIP-seq测序,如果实验设计没有问题,测序质量也OK的话,很容易了根据序列call到符合要求的peaks,或者可以去很多文章或者roadmap里面下载到非常多有意义的peaks文件, 一般是BED格式文件,这是就需要对这些peaks进行各种各样的注释以及可视化了,还有根据peaks相关的基因可以做各种各样的下游分析,包括各种pathway数据库的富集,MsigDB数据库注释,gene ontology的注释等等,此时不得不强烈推荐一款网页版工具,是斯坦福大学的学者开发的GREAT。
此工具的出现主要是为了解决基因组上面的非编码区域注释缺乏的问题,而我们CHIP-seq实验得到的peaks结果通常就是在非编码区域
该工具每次只能上传一个文件,就是我们call出来的peaks记录文件,支持bed格式的:

Continue reading

07

用网页版工具ChIPseek来可视化CHIP-seq的peaks结果

一般做完一个CHIP-seq测序,如果实验设计没有问题,测序质量也OK的话,很容易了根据序列call到符合要求的peaks,或者可以去很多文章或者roadmap里面下载到非常多有意义的peaks文件, 一般是BED格式文件,这是就需要对这些peaks进行各种各样的注释以及可视化了,此时不得不强烈推荐一款网页版工具,是台湾学者开发的ChIPseek:

Continue reading

07

自学CHIP-seq分析第九讲~CHIP-seq可视化大全

讲到这里,我们的自学CHIP-seq分析系列教程就告一段落了,当然,我会随时查漏补缺,根据读者的反馈来更新着系列教程。其实可视化这已经是一个比较复杂的方向了,不仅仅是针对于CHIP-seq数据。可视化本身是发文章的先决条件,而让人一目了然图片也说明了数据分析人员对数据本身的理解。我这里就列出一些目录和一些工具,和ppt。这个主要靠大家自学了,而且我博客空间有限,就不上传一大堆图片了,大家随便找一些经典的paper里面都会有很多可视化分析。

首先强烈推荐两个网页版工具,针对找到的peaks可视化:

然后再推荐一个哈佛刘小乐实验室出品的软件,也是专门为了作图http://liulab.dfci.harvard.edu/CEAS/usermanual.html

Continue reading

07

自学CHIP-seq分析第八讲~寻找motif

motif是比较有特征的短序列,会多次出现的,一般认为它的生物学意义重大,做完CHIP-seq分析之后,一般都会寻找motif 。查找有两种,一种是de novo的,要求的输入文件的fasta序列,一般是根据peak的区域的坐标提取好序列 。另一种是依赖于数据库的搜寻匹配,很多课题组会将现有的ChIP-seq数据进行整合,提供更全面,更准确的motif数据库。

Continue reading

06

如果你希望我回答你的问题

最近有很多朋友咨询我关于生物信息学数据处理的各种问题,有通过QQ直接对话聊天的,或者在QQ群里at我的,或者在知乎上面给我发短信息的,还有给我的163邮箱发信的。怎么说呢,首先还是感谢大家对我的信任,愿意花时间来跟我交流生物信息学数据处理的相关技术,然后我要简单说明一下为什么有些时候我没有答复你,虽然可能对你来讲,我是没有礼貌或者是太傲气了,但是我在这个领域浸淫了这么久,虽然你愿意跟我交流,但是你们的很多问题对我来说要么是都是太小儿科了,简单的google就能解决,要么是太空泛了,我无从答起,甚至我也给不出正确答案,更多的是有些人压根不用心的提问,纯粹是耽误你我的时间,所以我觉得很有必要写这篇博客简单说明一下,什么情况下我会回答你的问题。(如果你的问题非常吸引人,下面你就不用看了,我一定会抢着回答你的!) Continue reading

06

自学CHIP-seq分析第七讲~peaks注释

经过前面的CHIP-seq测序数据处理的常规分析,我们已经成功的把测序仪下机数据变成了BED格式的peaks记录文件,我选取的这篇文章里面做了4次CHIP-seq实验,分别是两个重复的野生型MCF7细胞系的 BAF155 immunoprecipitates和两个重复的突变型MCF7细胞系的 BAF155 immunoprecipitates,这样通过比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的结果的不同就知道该细胞系的BAF155 突变,对它在全基因组的结合功能的影响啦。

#我这里直接从GEO里面下载了peaks结果,它们详情如下:wc -l *bed
6768 GSM1278641_Xu_MUT_rep1_BAF155_MUT.peaks.bed
3660 GSM1278643_Xu_MUT_rep2_BAF155_MUT.peaks.bed
11022 GSM1278645_Xu_WT_rep1_BAF155.peaks.bed
5260 GSM1278647_Xu_WT_rep2_BAF155.peaks.bed
49458 GSM601398_Ini1HeLa-peaks.bed
24477 GSM601398_Ini1HeLa-peaks-stringent.bed
12725 GSM601399_Brg1HeLa-peaks.bed
12316 GSM601399_Brg1HeLa-peaks-stringent.bed
46412 GSM601400_BAF155HeLa-peaks.bed
37920 GSM601400_BAF155HeLa-peaks-stringent.bed
30136 GSM601401_BAF170HeLa-peaks.bed
25432 GSM601401_BAF170HeLa-peaks-stringent.bed

每个BED的peaks记录,本质是就3列是需要我们注意的,就是染色体,以及在该染色体上面的起始和终止坐标,如下:

#PeakID chr start end strand Normalized Tag Count region size findPeaks Score Clonal Fold Change
chr20 52221388 52856380 chr20-8088 41141 +
chr20 45796362 46384917 chr20-5152 31612 +
chr17 59287502 59741943 chr17-2332 29994 +
chr17 59755459 59989069 chr17-667 19943 +
chr20 52993293 53369574 chr20-7059 12642 +
chr1 121482722 121485861 chr1-995 9070 +
chr20 55675229 55855175 chr20-6524 7592 +
chr3 64531319 64762040 chr3-4022 7213 +
chr20 49286444 49384563 chr20-4482 6165 +

我们所谓的peaks注释,就是想看看该peaks在基因组的哪一个区段,看看它们在各种基因组区域(基因上下游,5,3端UTR,启动子,内含子,外显子,基因间区域,microRNA区域)分布情况,但是一般的peaks都有近万个,所以需要批量注释,如果脚本学的好,自己下载参考基因组的GFF注释文件,完全可以自己写一个,我这里会介绍一个R的bioconductor包ChIPpeakAnno来做CHIP-seq的peaks注释,下面的包自带的示例:

library(ChIPpeakAnno)
bed <- system.file("extdata", "MACS_output.bed", package="ChIPpeakAnno")
gr1 <- toGRanges(bed, format="BED", header=FALSE)
## one can also try import from rtracklayer
library(rtracklayer)
gr1.import <- import(bed, format="BED")
identical(start(gr1), start(gr1.import))
gr1[1:2]
gr1.import[1:2] #note the name slot is different from gr1
gff <- system.file("extdata", "GFF_peaks.gff", package="ChIPpeakAnno")
gr2 <- toGRanges(gff, format="GFF", header=FALSE, skip=3)
ol <- findOverlapsOfPeaks(gr1, gr2)
makeVennDiagram(ol)

##还可以用binOverFeature来根据特定的GRanges对象(通常是TSS)来画分布图
## Distribution of aggregated peak scores or peak numbers around transcript start sites.

可以看到这个包使用起来非常简单,只需要把我们做好的peaks文件(GSM1278641_Xu_MUT_rep1_BAF155_MUT.peaks.bed等等)用toGRanges或者import读进去,成一个GRanges对象即可,上面的代码是比较两个peaks文件的overlap。然后还可以根据R很多包都自带的数据来注释基因组特征:

data(TSS.human.GRCh37) ## 主要是借助于这个GRanges对象来做注释,也可以用getAnnotation来获取其它GRanges对象来做注释
## featureType : TSS, miRNA, Exon, 5'UTR, 3'UTR, transcript or Exon plus UTR
peaks=MUT_rep1_peaks
macs.anno <- annotatePeakInBatch(peaks, AnnotationData=TSS.human.GRCh37,
output="overlapping", maxgap=5000L)

## 得到的macs.anno对象就是已经注释好了的,每个peaks是否在基因上,或者距离基因多远,都是写的清清楚楚
if(require(TxDb.Hsapiens.UCSC.hg19.knownGene)){
aCR<-assignChromosomeRegion(peaks, nucleotideLevel=FALSE,
precedence=c("Promoters", "immediateDownstream",
"fiveUTRs", "threeUTRs",
"Exons", "Introns"),
TxDb=TxDb.Hsapiens.UCSC.hg19.knownGene)
barplot(aCR$percentage)
}

得到的条形图如下,虽然很丑,但这就是peaks注释的精髓,搞清楚每个peaks在基因组的位置特征:

ChIPpeakAnno-genomic-region-distribution

 

同理,对每个peaks文件,都可以做类似的分析!

但是对多个peaks文件,比如本文中的,想比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的结果的不同,就需要做peaks之间的差异分析,已经后续的差异基因注释啦

当然,值得一提的是peaks注释我更喜欢网页版工具,反正peaks文件非常小,直接上传到别人做好的web tools,就可立即出一大堆可视化图表分析结果啦,大家可以去试试看:

虽然我花费了大部分篇幅来描述ChIPpeakAnno这个包的用法,但是真正的重点是你得明白peaks记录了什么,要注释什么,已经把这3个网页工具的可视化图表分析结果全部看懂,这网页版工具才是重点!!!
05

用R包BayesPeak来对CHIP-seq数据call peaks

BayesPeak也是peaks caller家族一员,用的人也不少,我这次也试了一下,因为是R的bioconductor系列包,所以直接在R里面安装就好,但是有几个点需要注意,我比对的基因组不只是Chr1~22,X,Y,M,还有一些contig和scaffold,需要在bam文件里面去除的,而且BayesPeak比较支持读取BED文件,可以直接转为GRanges对象,虽然它号称可以使用多核,但是计算速度还是非常慢。 Continue reading

05

用PeakRanger软件来对CHIP-seq数据call peaks

此文专门讲这个软件如何用,但是跟我以前写的软件说明书又不大一样,主要是因为我用MACS2这个软件call peaks并没有达到预期的结果,所以就多使用了几个软件,其中PeakRanger尤其值得一提,安装特别简单,而且处理数据的速度特别快,结果也非常容易理解,更重要的是它给出一个网页版的报告,里面有所有找到的符合要求的peaks的可视化图片!!!! Continue reading