25

RNA-Seq数据的内含子保留分析

前面我们的明码标价之普通转录组上游分析,受到了各大热心粉丝的吐槽,觉得太简单了我们居然还好意思收费。后面我就就加上了稍微有一点难度的《可变剪切》,不过仍然是阻挡不了粉丝无穷无尽的需求,后台有人发给我一个RNA-Seq数据的内含子保留分析需求。

我看了看粉丝发过来的文章,发表于 January 2021, 在CELL杂志的文章《Spliceosome-targeted therapies trigger an antiviral immune response in triple-negative breast cancer》,链接是:https://doi.org/10.1016/j.cell.2020.12.031

这个文章数据比较多:

SUM159 SD6 RNA-Seq #GSE163414
LM2 SD6 RNA-Seq #GSE163411
SUM159 Cytoplasmic RNA-Seq #GSE163232
SUM159 J2 dsRIPseq #GSE163188
Syngeneic model RNA-Seq #GSE163181

可以看到,主要是RNA-Seq数据啦,有两个是普通的细胞系处理前后的表达量差异情况探索,所以出图如下:

表达量差异情况探索标准图表

这个已经是超级简单了, 我们的明码标价之转录组常规测序服务(仅需799每个样品)明码标价之普通转录组上游分析 就是对这样的 RNA-Seq拿到了表达量矩阵,然后下游分析也是平淡无奇,仅收费800,代码呢,我也多次分享了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;

这样的分析流程基本上绝大部分粉丝已经是无需委托我们啦,所以粉丝发给我的是 RNA-Seq数据的内含子保留分析需求,步骤如下:

  • Hisat2-aligned reads were filtered for proper-paired reads (-f 2 flag in SAMtools).
  • Intron annotations were parsed from UCSC RefSeq gene annotation files and were filtered to exclude features that overlap genomic loci on the same strand.
  • Reads mapping to introns were counted using Pysam.
  • For each intron feature, we defined the following two read classes:
    • (1) ‘‘intronic’’ reads mapping at least 6 bases contiguously within the intron
    • (2) ‘‘spanning’’ reads with ends mapping to the flanking exons.
  • The intron retention (IR) score was then computed as the ratio of the RPKM-normalized ‘‘intronic’’ read density over the RPKM-normalized ‘‘spanning’’ read den- sity.
  • In order to compare commonly expressed IR events across samples, introns with < 10 spanning RPKM in any sample were excluded from all analyses.

对我们有ngs组学数据分析经验的人来说,其实并不难,无非就是安装几个软件,使用几个包。但对于没有学过编程的纯生物学研究者来说基本上不可能完成,也没有这样的网页工具。

但是呢,这个流程又确实是过于个性化,哪怕对我们来说很简单,也其实是耗费时间和精力需要研发调试的。

首先你需要有RNA-seq的fastq文件

如果是TCGA数据库,步骤如下:

  • Intron retention analysis was performed on BRCA TCGA RNA sequencing datasets (Koboldt et al., 2012).
  • TCGA fastq reads were mapped using the STAR aligner (v2.3.1) (Dobin et al., 2013) onto the hg19/GRCh37 reference genome as previously described (Hsu et al., 2015).
  • Level of intron retention (IR level) within each sample was calculated as the number of introns with IR scores > 0.01, as defined previously.
  • ‘‘High’’ and ‘‘Low’’ IR were defined as having an IR level outside one standard deviation of the mean.
  • RSEM normalized gene expression data from TCGA was obtained from the Broad GDAC Firehose.

一般来说,大家是很难下载TCGA数据库原始fastq文件,这个权限审核比较严厉,不过咱们数据挖掘呢完全没有毕业一直盯着TCGA数据库啊,自己领域的普通RNA-seq肯定也是不少。如果是认真搞科研,你一定会自行调研和阅读文献,找到合适的数据集。

数据挖掘的核心就是通过分类把基因数量搞少

部分粉丝看到这里,可能无法理解RNA-Seq数据的内含子保留分析的意义是什么?

其实就是多了一个维度的指标,来把你的样本分类,分类后就可以找差异。同样的我们可以看这个示例文章,感觉每个样品的IR指标,把病人分成IR高低两个组别,然后走普通的ssGSEA分析,生存分析。

image-20210320093952534

这一套组合拳,大家是不是很眼熟啊?

如果你也想做自己的的RNA-Seq数据的内含子保留分析,赶快联系我们吧,同样的,我们的分析仍然是明码标价,单个RNA-Seq数据的内含子保留分析收费仅需800元,因为是纯粹的基于Linux平台的各种软件脚本,所以提供你全套数据和脚本但是无法保证你能运行成功,因为你不一定有自己的服务器。

25

去broad官网下载msigdb数据库文件很麻烦

我在:借鉴escape包的一些可视化GSVA或者ssGSEA结果矩阵的方法对单细胞表达矩阵做gsea分析的两个教程里面提到过,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb 需要注册才能下载。

但是这个GitHub包,ncborcherding/escape文档,在:http://www.bioconductor.org/packages/release/bioc/vignettes/escape/inst/doc/vignette.html 提供了一个封装好的MSigDB数据库信息,其实你仔细看它的文档,它的打包其实是依赖于msigdbr_7.2.1。

获取 MigDB中的全部基因集

MigDB中的全部基因集 都被这个GitHub包,ncborcherding/escape 打包起来了,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb 包括H和C1-C7八个系列(Collection),每个系列分别是:

  • H: hallmark gene sets (癌症)特征基因集合,共50组,最常用;
  • C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少;
  • C2: curated gene sets:(专家)校验基因集合,基于通路、文献等:
  • C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分
  • C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;
  • C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)
  • C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 发表芯片数据
  • C7: immunologic signatures: 免疫相关基因集合。
GS <- getGeneSets(library = "H")
GS

MigDB中的全部基因集 被 构建成为: a list of GSEABase GeneSet objects ,获取 hallmark gene sets (癌症)特征基因集合。

源头是msigdbr 包

安装方法非常简单:

install.packages("msigdbr")

但是这个msigdbr并没有我想象中的那么大:

Installing package into ‘C:/Users/win10/Documents/R/win-library/4.0’
(as ‘lib’ is unspecified)
试开URL’https://cran.rstudio.com/bin/windows/contrib/4.0/msigdbr_7.2.1.zip'
Content type 'application/zip' length 6737651 bytes (6.4 MB)
downloaded 6.4 MB

package ‘msigdbr’ successfully unpacked and MD5 sums checked

同样的,学习R包,看看文档即可,在: https://cran.r-project.org/web/packages/msigdbr/vignettes/msigdbr-intro.html

Documentation for package ‘msigdbr’ version 7.2.1
DESCRIPTION file.
User guides, package vignettes and other documentation.
Help Pages
msigdbr Retrieve the gene sets data frame
msigdbr_collections List the collections available in the msigdbr package
msigdbr_show_species List the species available in the msigdbr package
msigdbr_species List the species available in the msigdbr package

非常简单的文档

这些代码使用就明白了,确实没啥好继续讲解的:

library(msigdbr)
# All gene sets in the database can be retrieved without specifying a collection/category. 
all_gene_sets = msigdbr(species = "Mus musculus")
head(all_gene_sets)
msigdbr_species()
all_gene_sets = msigdbr(species = "Homo sapiens")

无非就是封装和对象,前面的 escape 包提供了getGeneSets函数,我们的这个msigdbr提供了 msigdbr函数。

生信基石之R语言

B站的10个小时教学视频务必看完,参考 GitHub 仓库存放的相关学习路线指导资料:https://github.com/jmzeng1314/R_bilibili ,可以参考一些优秀笔记,比如https://mubu.com/doc/2KUiSCfVsg

文末友情推荐

25

单细胞转录组下游分析是否有必要删除线粒体和核糖体基因

如果你看了我的单细胞转录组数据分析的 基础10讲:

25

还在到处转发求赞弄编程书籍PDF吗

过去的几年我们一直在强调要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160
然后呢,就有非常多的留言期待有电子版PDF分享,但是咱们并不是那样的公众号啊。咱们《生信技能树》,《单细胞天地》等平台,都是生物信息学领域流量天花板,犯不着去使用盗版资源来骗去流量哦!
而且,但凡是跟了我这么多年,学习了一些搜索技巧的,也很容易去搜索到对应的PDF资源啊。不过,我这里有一个更好的推荐,就是微信读书这个APP产品,了解一下,如下所示:
image-20210410152130404
如果你接下来还要问我,什么是微信读书,如何使用,那你可能并不是很适合学习生物信息学!