lncRNA-seq的一般分析流程

前面我们系统性的总结了circRNA的相关背景知识

同样的策略,我们也可以应用到lncRNA的学习。所以前面我们生信技能树发布了:lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 ,现在就是lncRNA-seq数据的一般分析流程啦。

自学lncRNA-seq数据分析~学习大纲

lncRNA分析跟常见的mRNA-seq分析重合度很高,无非也是把测序的fastq文件mapping到参加基因组,获取转录本信息,转录本表达定量,表达量的差异分析,比较新的分析就是把转录本分成了lncRNA和mRNA,这样可以考虑它们之间的互相作用,也可以在实验设计的时候加入miRNA和CHIP-seq,这样多种数据结合分析,显得更高大上一点,也能更好的刻画机体状态,从而回答生物学假设。要完成全部lncRNA-seq数据分析的学习,需要非常大量的文献阅读

最经典的仍然是看表达差异

所以对于这样的lncRNA-seq数据,走我们标准的RNA-seq定量流程,针对gencode数据库的gtf文件拿到表达矩阵即可,这个表达矩阵里面就包含了lncRNA和mRNA,可以分开走走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:

  • 第一讲:GEO,表达芯片与R
  • 第二讲:从GEO下载数据得到表达量矩阵
  • 第三讲:对表达量矩阵用GSEA软件做分析
  • 第四讲:根据分组信息做差异分析
  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
  • 第六讲:指定基因分组boxplot指定基因list画热图

仅仅是最后得到的差异分子,并不是以前的mRNA后面的基因名,而是miRNA,lncRNA,甚至circRNA的ID,看起来很陌生罢了。感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;

如果是芯片

发表期刊:《Mol Neurobiol》
影响因子:5.397

比如文章: Distinct Hippocampal Expression Profiles of Long Non-coding RNAs in an Alzheimer’s Disease Model[J]. Molecular Neurobiology, 2016:1-14.构建大鼠疾病模型,对AD组(n = 10)和 control组(n = 10)进行芯片分析,生信分析差异lncRNA和mRNA。
Case-control组间发现315个显著差异的lncRNA(238个上调,77个下调)。同时发现311个显著差异的mRNA(191个上调,120个下调)。

如果是测序

研究人员收集7对肝内胆管癌(iCCA)和相邻正常组织进行RNA测序,研究lncRNA和mRNA的表达差异。在ICCA组织中,相对于正常组织有230个lncRNA差异表达提高了4倍,其中97个上调,133个下调。此外,169个lncRNA和597个mRNA形成了由766个网络节点和769个连接边缘组成的lncRNA-mRNA共表达网络。生物信息学分析发现这些失调的lncRNAs与胆固醇稳态、不溶性分子和脂质结合活性有关,并且在补体和凝血级联以及PPAR信号通路中富集。

文献是:Genome-wide analysis of long noncoding RNA and mRNA co-expression profile in intrahepatic cholangiocarcinoma tissue by RNA sequencing.Oncotarget, 2017,8(16):26591-26599.

你可以比较同样的实验设计

一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况,给大家的学徒作业哈!

其它数据分析重现的作业

2019年12月发表在SR的文章:Transcriptome analysis-identified long noncoding RNA CRNDE in maintaining endothelial cell proliferation, migration, and tube formation 数据在:GSE141126 感兴趣的朋友可以下载测序数据后走同样的流程,看看能不能得到类似的生物学结论的图表。

2019年12月发表在SR的文章:Transcriptome-wide Profiling of Cerebral Cavernous Malformations Patients Reveal Important Long noncoding RNA molecular signatures 数据在:GSE137596 感兴趣的朋友可以下载测序数据后走同样的流程,看看能不能得到类似的生物学结论的图表。然后作者本身还下载了GSE123968进行重新分析。

重点关注测序样本的选择,比如10 CCM patients and 4 controls from brain ,然后标准差异分析结果,比如得到 1,967 lncRNAs and 4,928 protein coding genes (PCGs) ,一般来说能重复出来这个结果就挺好的了。

值得注意的是RNA-seq其实比不上LncRNA芯片

当然了,这个是商业公司的宣传,为了突出Arraystar系列芯片的优点,具体评价大家可以自行斟酌。

LncRNAs在正常的生理过程和疾病中发挥重要功能,已成为科学研究热点。对于LncRNAs基因表达谱检测,芯片技术比RNA-seq有许多重要且不可替代的优势,仍然是LncRNAs表达谱检测的首选平台(附表),原因有如下几方面:

  • LncRNAs比蛋白编码RNAs表达水平低
  • RNA-seq对于低丰度转录本的定量不可靠
  • 增加测序深度不能提高低丰度转录本的检测准确度
  • RNA-Seq不能精确定量LncRNA与RNA-Seq数据分析不成熟密切相关
  • 芯片比RNA-Seq更适合低丰度LncRNAs 表达谱的检测

对非模式生物来说鉴定和发现新的lncRNA是重中之重

比如2019年06月发表在SR的文章:Systematic identification and characterization of Aedes aegypti long noncoding RNAs (lncRNAs) 就是一个比较新而且比较容易学习的鉴定和发现新的lncRNA的流程, 长链非编码RNA(long non-coding RNA,LncRNA)一般指不具有蛋白编码能力,转录本长度超过200 nt的RNA分子,包括intronic/exonic lncRNAs、antisense lncRNAs、overlapping lncRNA和long intergenic ncRNAs(lincRNAs)。 所以数据分析具有特殊性,主要是在非模式生物里面研究。

We identified a total of 4,689 novel lncRNA transcripts, of which 2,064, 2,076, and 549 were intergenic, intronic, and antisense respectively.

因为确实做这方面数据分析很少,所以就直接给出几个科研服务公司的例子,大家自行学习吧:

  • 比如:”Comparative analyses of long non-coding RNA in lean and obese pigs.”Oncotarget(2017): 研究对陆川猪和杜洛克猪两个品种的三种不同器官—肝脏,肌肉和脂肪组织中的lncRNAs分别进行了高通量测序。对测序数据进行分析后,共得出了4,868个lncRNA转录本(其中包含了3,235个新的lncRNA转录本)和8,843个mRNA转录本,这些lncRNAs的表达具备组织特异性。对各组织表达的lncRNA进行差异表达分析、聚类分析和靶基因预测分析等,从差异性最大的脂肪组织中选取了794个潜在的靶基因,通过分析和预测,发现这些靶基因参与226个信号通路作用,其中包括脂肪因子的信号通路,Pl3K-AKT信号通路和钙离子信号通路。

  • 再比如”Analyses of Long Non-Coding RNA and mRNA profiling using RNA sequencing in chicken testis with extreme sperm motility.”Scientific reports7.1 (2017):研究中,作者利用lncRNA测序的方法揭示了六只“北京优”公鸡睾丸中mRNA和lncRNA与精子活力的关系。测序结果显示,2,597个鸡睾丸中的lncRNAs被鉴定出来,其中包括了lincRNA,反义lncRNAs,和intronic lncRNAs,在所有lncRNAs中,124个是显著差异表达的。同时,17,690个mRNAs被鉴定出来,其中544个是差异表达的。随后的GO富集分析显示了这些mRNA和lncRNAs与ATP结合、纤毛组装和氧化还原等功能相关。

这两个文献参考:http://microread.com/scServ/9-921-323.html

如何区分mRNA与ncRNA是一个经典问题,方法主要分为以下4类:

  • 1)通过ORF长度判别,对于编码蛋白质的mRNA来说,其开放阅读框(ORF)长度一般大于300碱基或100氨基酸。因此,若RNA序列的ORF小于300碱基,其编码蛋白质的可能性会非常小

  • 2)根据ORF保守性,采用比较基因组学的方法进行判别,mRNA的ORF具有保守性,即可编码蛋白质的转录本序列与已注释的蛋白质或蛋白质结构域有同源相似性;

  • 3)通过RNA二级结构保守性预测。常用的根据二级结构保守性来识别ncRNA的方法有QRNA、RNAz、EvoFOLD等;

  • 4)综合性方法。

一个标准的LncRNA-seq分析报告

这些年做生信技能树教程分享,陆陆续续接触了几千个生物信息学数据分析相关课题求助, 看过了太多的各种NGS测序后的结题报告。当然也不缺LncRNA-seq的,比如诺禾的报告数据分析目录如下:

  • 1 数据产出情况汇总
  • 2 序列比对与拼接
    • 2.1 Reads 与参考基因组比对情况统计
    • 2.2 Reads 在染色体上的密度分布情况
    • 2.3 Reads 在已知类型的基因分布情况
  • 3 SNP 和 InDel 分析
  • 4 可变剪切分析
    • 4.1 可变剪切事件分类和数量统计
    • 4.2 可变剪切事件结构和表达量统计
  • 5 转录本拼接
  • 6 LncRNA 筛选
    • 6.1 LncRNA 筛选结果
    • 6.1.1 LncRNA 筛选统计图
    • 6.1.2 编码潜能筛选维恩图
    • 6.2 筛选 lncRNA 分类情况
    • 6.3 LncRNA 特征分析
    • 6.3.1 LncRNA 与 mRNA 的长度比较分析
    • 6.3.2 LncRNA 与 mRNA exon 数目比较
    • 6.3.3 LncRNA 与 mRNA ORF 长度比较
    • 6.3.4 序列保守性分析
  • 7 定量分析
    • 7.1 定量结果展示
    • 7.2 不同类型转录本表达水平比较
    • 7.3 不同试验条件下表达水平比较
    • 7.4 样品间表达相关性检查
  • 8 差异表达分析
    • 8.1 差异表达分析结果
    • 8.2 差异表达转录本火山图
    • 8.3 差异表达转录本染色体分布
    • 8.4 差异表达转录本聚类分析
    • 8.5 差异表达转录本维恩图
  • 9 LncRNA 靶向 mRNA 预测
    • 9.1 LncRNA co-location mRNA 预测
    • 9.2 LncRNA co-expression mRNA 预测
  • 10 GO 富集分析
    • 10.1 GO 富集分析结果
    • 10.2 GO 富集柱状图
  • 11 KEGG 富集分析
    • 11.1 KEGG 富集分析结果
    • 11.2 KEGG 富集散点图
    • 11.3 KEGG 富集通路图
  • 12 蛋白互作网络分析

可以看到,其实就定量后的差异分析和功能注释,比较偏向于LncRNA特殊性的分析就是LncRNA 特征分析和LncRNA 靶向 mRNA 预测,都是非常简单的。

LncRNA相关数据库

LncRNA作为一个研究热点也是火了不少年,所以相关LncRNA数据库不要太多,我这里谷歌搜索列出了一些,大家其实可以看看LncRNA数据库综述,就可以学习到其他人研究成果。

Lnc2Meth (http://www.bio-bigdata.com/Lnc2Meth/) 就是一个基于已有发表文献结果,对其中涉及到在特定研究疾病中的lncRNA及其甲基化结果进行了整理归纳收录的数据库。其中,对于每一个lncRNA都会提供DNA甲基化区域、类型和调控机制,而其是否在文献报道中有作为诊断分子以及其发表文献信息等都有整理。

lncSNP2.0 (http://210.46.80.146/lincsnp/search.php) 当仍不让的成为大家的首选工具,它是由华中科技大学研究人员开发的专门收录lncRNA和SNP关联信息的数据库,包含人和小鼠两个物种。

RegRNA2.0 (http://regrna2.mbc.nctu.edu.tw/index.html) 是由台湾同胞所研发的,专用来预测RNA功能性的motif序列,其预测内容包含转录motif、mRNA降解原件、RNA-RNA结合、翻译预测等功能。

11步学会LncRNA-seq数据分析

step1:read paper and get the workflow for lncRNA anlaysis

读文献,看数据分析流程,见Integration of Genome-wide Approaches Identifies lncRNAs of Adult Neural Stem Cells and Their Progeny In Vivo

step2:download the raw data from NCBI-GEO-SRA database

在文献里面找到测序数据,见 http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE45282

step3:quality control for the sequence data

Comments are closed.