06

Bioconductor包chimeraviz嵌合RNA可视化

Bioconductor包chimeraviz嵌合RNA可视化

高通量RNA测序已经能够更高效地检测融合转录本,但是融合检测的技术和相关软件通常产生高错误发现率。而一个自动整合RNA数据和已知基因组特征的可视化框架对于结果的检验是有帮助的。2017年发布的一个bioconductor包,chimeraviz就可以做到自动创建嵌合RNA可视化。

支持来自9种不同融合发现工具(deFuseEricScript、InFusion、JAFFA、FusionCatcher、FusionMap、PRADA、SOAPfuse和STAR-FUSION)的输入。 Continue reading

05

用LeafCutter探索转录组数据的可变剪切

用LeafCutter探索转录组数据的可变剪切

该软件早在2016年就公布了,发表在biorxiv预印本上面,但直到2017年的双11,才发表在NG上面,文章是 : Annotation-free quantification of RNA splicing using LeafCutter 最大的特点应该是不需要参考基因组的基因注释信息了吧,就是gtf/gff文件可以省略,当然,比对还是需要的。它还有另外一个非常重要的功能,splicing quantitative trait loci (sQTLs) 但是跟我目前关系不大, 就不介绍了。 Continue reading

十二 14

使用SGSeq探索可变剪切

可变剪切是指mRNA前体以多种方式将exon连接在一起的过程。 由于可变剪切使一个基因产生多个mRNA转录本,不同mRNA可能翻译成不同蛋白。

可变剪切背景知识

转录组一般是指从细胞或组织的基因组所转录出来的RNA的总和,包括编码蛋白质的mRNA和各种非编码RNA(rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等)。真核生物的基因结构是不连续的,如下图:

Continue reading

十一 08

850K甲基化芯片数据的分析

公众号文章,作者是北京基因组所,任云晓

本文是看到生信技能树有个450K甲基化芯片数据处理传送门,我呢,恰好不久前用一个集成度很高的ChAMP包分析过850K的甲基化芯片数据。所以,就想着把自己的笔记整理下,可以和更多的小伙伴学习交流,还有个原因可能是因为这是四月份打算学生信时,接手的第一个任务,曲曲折折好几个月才跑通流程,遇到的坑也比较多,想记录下来。

Continue reading

十一 02

一个植物转录组项目的实战

其实这个植物是拟南芥,所以跟人类研究的数据处理大同小异。

转录组

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有 RNA 的总和,包括 mRNA 和非编码 RNA 。通过转录组测序,能够全面获得物种特定组织或器官的转录本信息,从而进行转录本结构研究、变异研究、基因表达水平研究以及全新转录本发现等研究。 Continue reading

一个MeDIP-seq实战-超级简单-2小时搞定!

Featured

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。

MeDIP-seq 跟ChIP-seq的分析手段是一模一样的,同理hMeDIP-seq,caMeDIP-seq等等,都没有本质上的区别,只是用的抗体不一样而已,请自行搜索基础知识,我只讲数据分析。

一个ChIP-seq实战-超级简单-2小时搞定!

一个RNA-seq实战-超级简单-2小时搞定!

Continue reading

10

一个ChIP-seq实战-超级简单-2小时搞定!

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。
本次讲解选取的文章是为了探索PRC1,PCR2这样的蛋白复合物,不是转录因子或者组蛋白的CHIP-seq,请注意区别!
这是一个系列帖子,你可以先看:
文章是:RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells
RYBP and Cbx7都是Polycomb repressive complex 1 (PRC1)的组分:
所以用脚本在ftp里面批量下载即可:
1

Continue reading

01

ngsplot辅助CHIP-seq数据分析-可视化

最近在忙一些chip-seq的数据分析项目,它的可视化展现比较复杂一点,自己写程序将会耗费挺长时间的,就想着利用现成的工具,前面试用了deeptools,挺好 的,但是有点慢,是python程序,如下:
现在换一个R程序,这个非常快速,而且绘图个人觉得稍微美观一点,大家也可以都试试看。
首先软件的github里面有源代码,然后作者还四处宣讲这个包的神奇之处,下面的ppt非常言简意赅的描述了它的功能和强大之处。

Continue reading

十二 30

一个RNA-seq实战-超级简单-2小时搞定!

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。
转录组如果只看表达量真的是超级简单,真是超级简单,而且人家作者本来就测是SE50,这种破数据,也就是看表达量用的!
首先作者分析结果是:
1

Continue reading

十二 28

生物信息数据分析文章就是看图写作文

首先是从测试原始数据里面得到汇总数据
然后把各种统计汇总数据可视化成图表
最后根据图表来写作文即可。
来源:Genome-wide Mapping of HATs and HDACs Reveals Distinct Functions in Active and Inactive Genes

Continue reading

十一 25

hisat2+stringtie+ballgown

早在去年九月,我就写个博文说 RNA-seq流程需要进化啦! http://www.bio-info-trainee.com/1022.html  ,主要就是进化成hisat2+stringtie+ballgown的流程,但是我一直没有系统性的讲这个流程,因为我觉真心木有用。我只用了里面的hisat来做比对而已!但是群里的小伙伴问得特别多,我还是勉为其难的写一个教程吧,你们之间拷贝我的代码就可以安装这些软件的!然后自己找一个测试数据,我的脚本很容易用的! Continue reading

十一 15

htseq-counts跟bedtools的区别

我以前写过bedtools和htseq-counts的教程,它们都可以用来对比对好的bam文件进行计数,正好群里有小伙伴问我它们的区别,我就简单做了一个比较,大家可以先看看我以前写的软件教程。写的有的挫:

使用Bedtools对RNA-seq进行基因计数 ,

转录组HTseq对基因表达量进行计数

言归正传,我这里没精力去探究它们的具体原理,只是看看它们数一个read是否属于某个基因的时候,区别在哪里,大家看下图: Continue reading

15

用lumi包来处理illumina的bead系列表达芯片

表达芯片大家最熟悉的当然是affymetrix系列芯片啦,而且分析套路很简单,直接用R的affy包,就可以把cel文件经过RMA或者MAS5方法得到表达矩阵。illumina出厂的芯片略微有点不一样,它的原始数据有3个层级,一般拿到的是Processed data (示例), 当仍然需要一系列的统计学方法才能提取到表达矩阵。我比较喜欢用bioconductor,所以下面讲一讲如何用lumi包来处理这个芯片数据!

这个lumi包的使用代码和说明书都有,按部就班的学一遍就好了。
如果仅仅是分析数据,那么并不难,但是每个分析步骤后面都隐含着一系列的统计学方法,想彻底搞清楚他它们, 就很难了。

Continue reading

15

illumina的bead 系列表达芯片扫盲

表达芯片大家最熟悉的当然是affymetrix系列芯片啦,而且分析套路很简单,直接用R的affy包,就可以把cel文件经过RMA或者MAS5方法得到表达矩阵。illumina出厂的芯片略微有点不一样,它的原始数据有3个层级,一般拿到的是Processed data (示例), 当仍然需要一系列的统计学方法才能提取到表达矩阵。接下来我们首先讲一讲illumina的bead 系列表达芯片基础知识吧: Continue reading