miRNA、LncRNA、CircRNA靠谱小结
中心法则大家都不陌生,但是DNA <--> RNA —>蛋白质
的传统的中心法则已经不能完整的概括基因遗传规律、解释所有的生命现象,随着非编码RNA的不断被发现 , 探测其功能已势在必行。相信在不久的将来,中心法则更完善的诠释生命的神奇。
真核生物基因组存在着大量的非编码DNA,在人类中甚至超过了97%,也就是说在构成人体DNA的30亿个化学单元或碱基对之中,仅有1%~3%是作为编码的有效区域而存在的。过去一直认为这些序列没有功能,因此称为“junk”DNA,即垃圾DNA。这些“垃圾DNA”主要包括内含子、简单重复序列、移动序列及其遗留物。
研究表明,这些直接产生蛋白质的DNA序列在生命活动中有着同样重要的作用,大部分的非编码DNA在所属基因的有效活动过程中发挥着本质作用。
常见的调控作用的非编码RNA包括MicroRNA、长链非编码RNA、环状RNA、snoRNA。
互相作用
LncRNA vs. miRNA
Uncle Jim 前几天找到我,商量道:你要不写个关于lncRNA和micro RNA的吧,我很惊讶:喔X!这不就是ceRNA么,文章都满天飞了,本来还有个OT可以灌水,可惜现在GG了,五分的梦想都实现不了还有啥可讲的!不过想想自己还是菜鸟,适合写点草根的东西,再加上拗不过他,毕竟团长嘛 ; )
概念复习及混淆点提示
什么是lncRNA和miRNA,他们都来自一个大家庭:非编码RNA(non-coding RNA)。
先说微小RNA(micro RNA, miRNA),说到这就又不开森了,明明前两天冰糖讲过了还要我来重复!唉,谁让人家miRNA得过Nobel prize,无论做转录组的生物信息还是基础实验,miRNA真的蛮重要的,可以称得上是非编码调控研究的先锋。接下来划重点:miRNA通过结合3‘-UTR的种子区(seed region)下调靶基因mRNA在胞质内的表达是其经典生物学功能,也是内源竞争性(competing endogenous) RNA分子网络的理论基础,虽然有报道称部分miRNA可以结合5’-UTR的帽区延长mRNA的半衰期,或是进核促使相关基因的转录(有点儿撞脸piRNA),不过这些都是miRNA这位老朋友的新玩法,还没有写入教科书,而且现有的大部分miRNA相关数据库也都是围绕其干涉靶基因表达的功能进行注释和预测的。
接下来是lncRNA,这就有点儿creepy了,这个概念出现有一段时间了,三五年前火了一把,那时候随便芯片测序就可以发影响因子上五分的杂志,这两年虽然有点回冷不过依然不乏好文章的面世,不过就是这个人尽皆知的概念,很多情况都一直被人们胡乱地叫着名字:lincRNA / lncRNA?
长链非编码RNA(long non-coding RNA,lncRNA)是对应短片段非编码RNA(miRNA, piRNA, snoRNA, shRNA, etc.)的一个较大的集合概念,是较高级真核生物(其实也没多高级,昆虫也有)细胞转录组中长度超过200nt,且不编码蛋白翻译的线性RNA,包括pseudogene和long intergenic non-coding RNA(lincRNA)等,它们与mRNA相比还有一些其他特征,比如有的没有cap或polyA(鬼知道它们怎么活下来的),很多存在二级结构且通过其发挥功能,还有大部分具有组织特异性等。lncRNA的功能多种多样,概括地讲就是作为庞大的物质基础和背景,协调完成高等生命复杂的调控过程,所以那些经典的例子如HOTAIR或H19,细分都是属于lincRNA的范畴。
lncRNA与ceRNA
lncRNA因其存在Introns等片段组成,长度可达数千nt,这就为吸附结合大量的miRNA提供了良好的物质基础,通过竞争占有胞内大量的miRNA,像海绵一样缓冲并削减其干涉靶基因mRNA编码蛋白的能力,我们就称这样的lncRNA与mRNA互为ceRNA关系,因此可见,作为关联节点的就是miRNA,它的靶构成了ceRNA,共同组合就是ceRNA网络。众多研究中,对抑癌基因PTEN相关ceRNA调控机制的认识较为成熟。
如何用今天的知识印PAPER?
WTF!印文章?
对!你没听错!只要掌握了今天的知识概念,利用往期学习的生信技能,再加上一点ceRNA网络构建的小技巧,就可以轻松搞一篇SCI。本着只讲干货的原则,就把我们看家糊口的本领交给诸位,基本方法如下(利用公共数据库构建癌症ceRNA网络):
-
- 在TCGA数据库中获取某一癌症的表达谱数据,设定合适的参数和阈值处理得到差异表达的mRNA、miRNA和lncRNA;
-
- 利用多个数据库,如miRwalk、targetscan、miRbase等,建立以miRNA为中心的互作关系,即分析哪些差异表达的mRNA和lncRNA是哪些差异表达的miRNA的靶基因;
-
- 通过CytoScape等网络图搭建软件绘制ceRNA网络,根据相关性、表达变异等信息个性化网络图的呈现形式,原则就是内涵尽量丰富,但要保证清晰、可读性强。
到这儿ceRNA网络就搭建成功啦,但是要想把文章质量发的好一些,肯定还要花哨一些的,比如:
加上数据处理过程图(聚类热图或者火山图)充个数;或者把差异表达的mRNA去做个功能富集分析;还可以搞个共表达网络WGCNA什么的;再有呢可以联系临床数据把意义重大的节点分子做个生存分析啦什么的;你要是有个实验室,能收点样本买个芯片啥的,做个验证是再好不过的咯。。。
什么!?你问这靠不靠谱?给一篇刚刚online的paper自己看(文章ceRNA网络图附在下方) 内容还没有本期讲的花哨呢,轻松毕业!
什么!?你说方法不会!?关注我们,翻翻之前的历史消息,或者求助大号“生信技能树”,问题都会迎刃而解 : ) 再不行的话去联系Uncle Jim吧,只有他才能拯救你了。好了我去找他领赏了,大家继续努力,冬夜里一杯温暖的Cappuccino,can’t wait! hiahiahia…circRNA vs. miRNA
前期看了团长的一篇文章有关于lncRNA与miRNA的文章,结合这篇综述着重梳理一下circRNA在与microRNA调控上所发挥的作用,准确的说是Cdr1as与miR-7 and miR-671之间的相互关系,文献题目为
A circular twist on microRNA regulation
。
https://www.nature.com/articles/cr2017136/
- 通过CytoScape等网络图搭建软件绘制ceRNA网络,根据相关性、表达变异等信息个性化网络图的呈现形式,原则就是内涵尽量丰富,但要保证清晰、可读性强。
简略circRNA的研究过程
- 1993,Cocquerelle等人在人类细胞的 ets-1 locus中发现了两个非聚腺苷酸化的环形亚型。同年,Capel等人发现了一个来自于Sry locus的circRNA。
- 随后测序技术及生物信息学的发展,证实circRNA是一类由pre-mRNAs反向剪切形成且大量存在的非编码RNA。
- circRNAs具有类似于lncRNAs的性质,参与转录和翻译调控,并能作为“miRNA-sponges”发挥功能。
miRNA通过结合3‘-UTR的种子区(seed region)下调靶基因mRNA在胞质内的表达是其经典生物学功能,也是内源竞争性(competing endogenous) RNA分子网络的理论基础。
Cdr1as与miRNA互作的研究过程
- circRNA作为一种内源性竞争RNA可以通过MREs竞争miRNAs,比如Cdr1as包含~70个保守的miR-7 MREs 及一个miR-671 MREs,并在多个实验验证中证实。
- Morpholino通过将表达Cdr1as的质粒导入斑马鱼胚胎以敲低miR-7的表达,随后通过导入miR-7前体来恢复表型。
- miR-671可以触发Cdr1as的降解,间接影响miR-7水平。
- 结肠直肠癌和肝细胞癌细胞系中敲低Cdr1as,通过增加miR-7水平减弱了癌症增殖过程。
- Rajewsky等人设计了完全删除circRNA转录本的Cdr1as KO小鼠模型,在该模型上通过改良的CLIP分析验证Cdr1as与miR-7 and miR-671 直接互作并可以对其AGO2结合的RNA靶位点进行测序。四个脑区域的miRNA测序结果显示,miR-7和miR-671差异分布最明显,且miR-7一致显著下调,而其对应的靶基因上调。
值得注意的是,Cdr1as与 miR-7 和miR-671的结合方式并不相同:在Cdr1as上miR-7 MREs的seed region外缺少互补性,因此无法通过结合AGO2的方式沉默mRNA,而miR671结合位点显示与Cdr1as的完美互补,因此在Cdr1as KO小鼠的脑中miR-671的水平增加。
在siRNA研究中,向Cdr1as靶标释放稳定的miR-7后,AGO2复合物可以快速作用于miR-7靶标,导致它们在短期内抑制;而在细胞质中,Cdr1as与miR-7组成型方式降低其总体水平 (图1)。
展望
- AGO2介导的ceRNA网络调节在microRNA发挥调控功能过程中的机制需要进一步的研究,预测靶向特定ceRNA时需考虑其可能导致伴随的抑制多种其他RNA,或者共享相同miRNA的MRE。circRNA在发挥海绵功能时需要考虑其竞争性而不止抑制性。
- circRNA 在体内的与多个癌症相关联,在基因表达层面,Cdr1as的急性与慢性靶向过程可能对治疗具有积极意义。虽然Piwecka 等利用CRISPR / Cas9方法并去除了整个Cdr1as基因座(2.9 kb)并通过表型和miR-7配偶体验证了其特异表达Cdr1as,但是由于circRNA的形成方式大多都是与反向剪切过程得来的,因此使用该策略可能伴随着蛋白质编码外显子或lincRNA /假基因的缺失,亟需体内删除、诱变的替代方法。
各种癌症的lncRNA-miRNA-mRNA竞争性内源RNA网络挖掘
以乳腺癌(BC)为例子,文章是:Fan CN,et al. Systematic analysis of lncRNA-miRNA-mRNA competing endogenous RNA network identifies four-lncRNA signature as a prognostic biomarker for breast cancer. 2018 Sep 27;16(1):264.
BC患者的RNA测序数据和临床特征来自Cancer Genome Atlas数据库,然后在BC组织和正常乳腺组织样品之间鉴定出差异表达的lncRNA(DElncRNA),DEmRNA和DEmiRNA。随后,建立了BC的lncRNA-miRNA-mRNA ceRNA网络,并进行了ceRNA网络中与lncRNA相互作用DEmRNA的基因肿瘤学富集分析。使用单变量和多变量Cox回归分析,开发了一组4-lncRNA标记用于预测BC患者的生存率。研究人员应用受者作用特征分析来评估该模型的性能。
在BC和正常乳腺组织样品之间总共发现了1061个DElncRNA,2150个DEmRNA和82个DEmiRNA
。建立了由8个DEmiRNA,48个DElncRNA和10个DEmRNA
组成的BC的lncRNA-miRNA-mRNA ceRNA
网络。 - 进一步的基因肿瘤学富集分析显示,与ceRNA网络中lncRNA相互作用的DEmRNA参与细胞前缘,蛋白酶结合,α-连环蛋白结合,γ-连环蛋白结合和腺苷酸环化酶结合。
- 对DE1ncRNA的单变量回归分析揭示了与BC患者OS相关的7种lncRNA(ADAMTS9-AS1,AC061992.1,LINC00536,HOTAIR,AL391421.1,TLR8-AS1和LINC00491)。
- 多变量Cox回归分析显示,这些lncRNA中的4个(ADAMTS9-AS1,LINC00536,AL391421.1和LINC00491)具有显著的预后价值,并且它们的累积风险评分表明该4-lncRNA标记可独立预测BC患者的OS。
- 此外,与3年生存率相关的4-lncRNA标记曲线下面积为0.696。
背景知识
定义
miRNA的定义
MicroRNA: 是一类21~23 nt 的小RNA,其前体大概是70~100 nt 左右,形成标准的stem 结构,加工后成为21~23 nt 的单链RNA。microRNA 的作用机制是与mRNA 互补,让mRNA 沉默或者降解。
lncRNA的定义
长链非编码RNA(LncRNA):长度在200-100000 nt之间的RNA分子。lncRNA的调控模式呢,可以分为:
(1)直接和蛋白(一般都是转移因子/转录调节子)结合,从而阻断了该分子的作用和信号通路。
(2)在细胞中起到microRNA海绵(microRNAsponge)的作用。(3)与蛋白结合,然后将蛋白复合物定位到特定的DNA序列上。
(4)调节mRNA的翻译。circRNA的定义
环状 RNA:circRNA分子呈封闭环状结构,不具有5’帽子和3’尾巴结构。不受RNA外切酶影响,表达更稳定,不易降解。但已有研究表明,人类的环状RNA主要是由外显子的反向剪接产生的。同时,circRNA分子富含microRNA结合位点,在细胞中起到microRNA海绵(microRNAsponge)的作用,进而解除miRNA对其靶基因的抑制作用,升高靶基因的表达水平。这一作用机制被称为竞争性内源RNA机制。
命名问题
miRNA的命名
pri-miRNA,pre-miRNA,mature miRNA是miRNA的三种形态。
一般,pre-miRNA以“mir”命名,其编号以“MI”编号,如人的miRNA 122的前体ID为hsa-mir-122,Accession为MI0000442;而miRNA的成熟链以“miR”命名,其编号以“MIMAT”编号,如人的miR-122的一个成熟体的ID为hsa-miR-122-5p ,Accession为 MIMAT0000421。
在确定命名规则之前发现的miRNA,依然保留原来名字,如hsa-let-7。miRNA后的阿拉伯数字表明被发现的先后顺序,如hsa-miR-122;尽管曾经还用*表明表达量低的miRNA,但现在这种命名方式已被取消。lncRNA的命名
实际上,目前lncRNA的命名还没有一个统一的原则,但为了让lncRNA的命名具有唯一性、准确性并最大程度上反映其功能,雨果基因命名委员会(HGNC,唯一的制定人类基因命名标准的官方授权机构)提供了一个命名指导指南,以供参考。参考文献:A short guide tolong non-coding RNA gene nomenclature
作者在发表新lncRNA时,可先获取HGNC的认可,如果作者发布的名字已在其他地方使用过,HGNC将会指定一个新名字供作者选择。
lncRNA的名字应是描述基因的缩写,便于人们理解名字的含义。如BANCR就是BRAF-activatednon-proteincoding RNA的缩写。
功能性转录假基因在命名时应保留它们假基因名称且不应改变其基于功能的名称。为了方便搜索,这个功能应加在名字的最后。eg: PTENP1 是“phosphatase and tensin homolog pseudogene 1 (functional)”.
而对于未知功能的lncRNA应依据基因组上下文来命名
如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,再加后缀即可。
后缀的分类: - 反义(antisense,AS),eg: BACE1-AS;
- 内含子(intronic,IT),eg: SPRY4-IT1;
- 重叠(overlapping,OT),eg: OSX2-OT;
长链基因间lncRNA(Longintergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,eg: LINC00485。
此外,有些lncRNA与编码基因是头碰头(headto head),可推断它们拥有双向启动子,HGNC推荐将其命名为反义上游(Antisense upstream,AU),例如,GENE2-AU1。