最近有粉丝来信表示我的免费视频课程《LncRNA-seq数据》非常的“简陋”,就是在用一个lncRNA芯片和一个lncRNA测序的数据来演示如何获得表达矩阵,以及后续的各种图表代码操作。完全没有生物学背景,并不是一个系统的课程,仅仅是技能展现。
让我很无语,我又不是带领本科生搞一个学期的课程,仅仅是不到2小时我能讲解什么背景呢,我提供的资料:
- 思维导图:https://mubu.com/doc/ISk-Ev1tg
- 配套资源合辑:https://share.weiyun.com/5hWYL1b
好几个G的文献,课程PPT等,都是需要大家深入学习的,又不是小学生了,还需要我带领你们背诵课文吗?
我的教程特色就是“人狠话不多”,先完成任务,细节自己理解,主干把握好!而且我说的清清楚楚,做任何一个具体的细分领域数据分析,都需要至少看5篇以上的综述。我自己带本科生做项目就是如此,比如最近我就安排了一个实习生完成了一个最新文献的翻译整理:《The lncRNA Toolkit: Databases and In Silico Tools for lncRNA Analysis》,是2020年的尾巴发表的,原文大家可以自己去下载。LNCipedia
网址:https://lncipedia.org/
LNCipedia是一个公共数据库,用于存储lncRNA序列和注释信息。 该数据库整合了多个人类lncRNA数据库信息,很大程度上解决了lncRNA数据库各自为政的问题。
最初发布于2013年,LNCipedia的最新版本(v5)发布于2019年。LNCipedia中的lncRNA信息来源于的数据库包括:LncRNAdb、Broad Institute、Ensembl、Gencode、Refseq、NONCODE、FANTOM,同时包含了Hangauer、Nielsen、Sun三篇文献中发现的lncRNA信息。最新版本(v5)包含了127,802个转录本和56,946个基因,并赋予了它们统一ID,同时还包含lncRNA转录本在基因组的位置、长度、结构、miRNA结合、lncRNA在其他数据库中相关记录等信息。使用者可以在该数据库中录入、搜索和下载lncRNA相关信息。另外,还采用了不同软件,对蛋白编码潜能进行了评估,软件列表如下:CPC、HMMER、PRIDE、PhyloCSF、CPAT、Ribosome-profiling。
LNCipedia的一个潜在缺点是严格的过滤标准。考虑到许多lncRNA如反义转录本与蛋白编码基因重叠,这可能导致大量生物学相关的lncRNA从数据库中被忽略。虽然LNCipedia提供了内置的编码潜能预测,但没有自动预测亚细胞定位,与疾病或功能预测的关联。LNCBook
网址:https://bigd.big.ac.cn/lncbook/index
由北京基因组所开发的人类长非编码RNA(long non-coding RNA, lncRNA)数据库。
基于严格的审编标准,LncBook整合已有lncRNA数据并鉴定新的lncRNA,共获得270,044个lncRNA转录本。在此基础上,LncBook在lncRNA表达、甲基化、变异、miRNA-lncRNA相互作用这些多组学层面进行大规模深层次的数据分析。在表达层面,绘制lncRNA在32或者53种正常人类组织中的表达图谱,并鉴定出49,115个高度组织特异(tissue-specific)和819个持家(housekeeping) lncRNA;在甲基化层面,构建lncRNA在9种癌症中正常与癌症状态下的promoter及body区的甲基化图谱;在变异层面,基于dbSNP数据库SNP位点注释lncRNA区域92,725,757个SNP最小等位频率(基于千人基因组数据)、ClinVar与COSMIC疾病关联信息;预测了128,392,451个lncRNA-miRNA的相互作用条目。上述的结果以图或表的形式展示在LncBook数据库中,相关信息均可免费下载。基于以上数据,LncBook还预测了97,998个潜在的疾病关联lncRNA。此外,在LncRNAWiki的基础上LncBook对1,867个文献报道lncRNA进行了系统的功能与疾病信息注释。
LncBook作为重要的lncRNA资源库,提供了目前为止数据量最为丰富的人类lncRNA数据。作为LncRNAWiki数据库的补充,LncBook具备友好的查询、浏览与可视化功能。用户可通过ID/symbol、功能、疾病名称等检索lncRNA信息,浏览指定lncRNA的多组学信息,并通过ftp下载所有相关注释信息与分析结果。此外,LncBook还提供了可用于lncRNA序列比对、分类、编码能力预测等研究的工具,方便在线分析。
虽然 LNCBook 为每个 lncRNA提供了大量的信息,但是自从2018年10月第一版发布以来,LNCBook 还没有收到任何重大更新。由于频繁更新是数据库的重要特征之一,LNCBook 能否成为 lncRNA数据库的新标准还有待观察。LncRNA Expression Databases
GTEx
网址:https://gtexportal.org/
GTEx是 Broad 研究所在2013年首次描述的一个项目。它正在不断更新,主要更新在2020年9月(GTEx v8)。GTEx 8.2版本包含了948名人类受试者的高通量测序数据,涉及54个不同组织,每个组织至少有70个样本的 RNA、 DNA 和 CHIP-seq数据。除了来自17,382个RNA-seq实验的综合表达数据外,GTEx还包含深度为32x的全基因组测序数据,提供了广泛的遗传、表观遗传和剪接变体信息。关于疾病关联和环境特异性遗传效应的信息,以及QTL信息是可获得的,可进一步了解洞察影响蛋白质编码和长非编码基因的表达(eQTL数据)或剪接(sQTL数据)的基因组位点。GTEx提供了可下载的数据集,以及按组织类型分类的组织学图像。它甚至提供生物标本的申请。虽然GTEx对科学界来说是一种有用的资源,但应该注意的是,在总共17382个RNA样品中,42% (7251个样品)的RNA RIN值在5.5和6.5之间,其中7通常是RNA样品的最低质量界限。此外,种族、性别和年龄在所有样品中的代表性并不相同,这可能会在一定程度上混淆数据。
这个数据库和TCGA和ICGC不同的是。TCGA和ICGC更多的还是肿瘤相关的数据,而GTEx收集的是正常人身上的组织来进行的测序,所以GTEx数据库包括的就只是正常人的数据。
这个数据集的用处:一方面是可以研究正常人不同组织之间的基因表达的区别。另外的一个呢,就是和TCGA联合使用。由于TCGA重点收集的还是癌症组织的数据,对于其正常的数据收集的相对来说较少,由于正常样本少所以对于差异表达的结果可能就不是很准确。这个时候如果我们把GTEx的数据纳入进来。这样分析的结果就会准确一些了。TANRIC
网址:https://ibl.mdanderson.org/tanric/_design/basic/main.html
癌症非编码RNAs地图集(TANRIC) ,一个用户友好的,开放访问的网络资源以交互式探索癌症中的lncRNAs。涵盖了TCGA (20 cancer types)、CCLE (20 cancer lineages)、OTHER (three independent datasets)。TANRIC使得研究者能够在临床环境下快速且直观地分析感兴趣的lncRNAs(已注释的lncRNAs或任何用户定义的lncRNAs)和其他分子数据,包括肿瘤类型内或跨肿瘤类型。软件开发者使用TANRIC鉴定了大量具有潜在生物医学标记的lncRNAs,其中许多显示与以确立的治疗靶标和跨肿瘤类型的生物标记,或者跨细胞系的药物敏感性强烈相关。TANRIC代表了研究lncRNAs在癌症中的功能和临床相关性的一种有价值工具,极大地促进了lncRNA相关的生物学发现和临床应用。CANTATAdb
网址:https://gtexportal.org
CANTATAdb是一个专门针对植物的 lncRNA 数据库,主要通过软件预测的方式识别植物中的lncRNA, 目前包含来自39个物种共239631个lncRNA,是目前最大的植物lncRNA数据库。通过从NCBI的SRA和EBI的ENA数据库中收集植物的RNA_seq数据,通过比对组装得到转录本序列,然后通过CNCI软件来预测lncRNA。CANTATAdb 可以通过特定物种的基因 ID 进行查询,并输出所得到的 lncRNA 序列、基因组位置、编码潜在状态预测、 RNA-seq 文库的表达信息,以及任何与 BLAST 数据库(BLAST)和 NONCODE数据库中的转录本相匹配的信息。编码能力预测软件工具列表
CPPred
CPPred的实现基于支持向量机分类器和多个序列特征, CPPred使用开放阅读框长度、开放阅读框覆盖率、Fickett分数和Hexamer分数、开放阅读框完整性、预测肽的等电点、预测肽的不稳定指数、预测肽的亲水性平均值Gravy以及30个CPPred中提出的CTD特征训练分类器。CTD特征用来描述全局转录本序列,核苷酸组成(特征C)描述了转录本序列中每个核苷酸的百分比组成;核苷酸转换(特征T)描述了4个核苷酸在相邻位置之间转换的百分比;核苷酸分布(特征D)计算每个核苷酸在转录物序列的5个相对位置(0,25%,50%,75%,100%)来表示每个核苷酸在转录本序列中的分布。
CNCI
CNCI算法基于相邻核苷酸三联体频率从转录组中分析编码RNA和非编码RNA,可以跨物种预测,人的模型能用其它各种动物上。
亚细胞定位相关数据库
lncRNA 的亚细胞定位是了解其潜在功能的重要因素。定位于细胞核的 LncRNAs 通常参与调节基因表达和/或剪接,印迹基因或使 x 染色体失活。另一方面,导入细胞质的 lncRNAs 可以调节 mRNA 的稳定性和翻译,调节蛋白质修饰,或者竞争 mirna。已知的 lncRNA 定位数据库和预测新型 lncRNAs 定位的工具可以有效地指导实验方法。
LncSLdb
网址:http://bioinformatics.xidian.edu.cn/lncSLdb/index.jsp
LncSLdb发布于2018年,详细描述了> 11000个非编码转录物的亚细胞定位数据。LncSLdb 的数据是使用两种互补的方法收集的。首先,检索了PubMed上关键词为“lncRNA”和“亚细胞定位”的文献,产生了3000篇论文。基于对本地化数据的人工管理,该列表被细化到100篇论文。其次,使用包括 UCSC、 enucbl、 GENCODE和 Flybase在内的多个现有数据库收集 lncRNA基因信息(如转录本长度和基因组位置)和可用的定位数据。LncATLAS
网址:https://lncatlas.crg.eu/
LncATLAS是以15个细胞系的高通量测序数据为基础,收录了来源于GENCODE注释的6768个lncRNA数据。该数据库以“Relative concentration index” (RCI)来评价具体定位。LncLocator
在2018年发布,LncLocator 是第一个专门用于预测 lncRNAs 亚细胞定位的工具。lncLocator是基于深度学习(Deep Learning)来预测lncRNA亚细胞定位,只需要输入核苷酸序列,即可快速得到LncRNA在细胞质、细胞核、核糖体、胞质溶胶、外泌体等这5个区间的分布比例。
结构构造相关数据库
lncRNA的二级和三级结构可以揭示可能的相互作用因子和转录本功能的信息。然而,由于一些原因,lncRNA结构的实验研究较难。首先,RNA会根据其结合因子相互作用导致构像发生变化。其次,lncRNA的结构往往包含动态区域。最后,一个lncRNA基因可能产生多种剪接异构体,从而产生几种不同的相应RNA结构。在这里,我们将讨论一个用于研究lncRNA二级结构的数据库和两个预测工具。
RMADB
网址:https://rmdb.stanford.edu/
类似于蛋白质的PDB数据库,包含了来自148037个RNA序列的769个结构条目。RNAfold
一个RNA二级结构预测工具,通过考虑结合能和序列可及性,预测长度为10000 nts的单链序列的MFE结构,提高了结构预测工具的两个独立基准的准确结果的可能性。RNAfold是在Zuker和Stiegler的动态规划算法的基础上建立的,该算法融合了叠加能量和不稳定能量,同时逐步增加序列长度,以预测每次增加长度时的最佳结构。
官网提供了在线服务,只需要上传fasta格式的序列即可
网址:http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgiDMfold
DMfold 是另一种结构预测工具,对短序列(70-200nts,如 tRNA 和5s rRNA)的阳性预测值大于0.9(在0~1的范围内,1是一个完美的预测值)。对于长度为300-500nts 的序列(例如来自转移信使 RNA 和 RNaseP 家族的序列) ,阳性预测值下降到 > 0.7; 然而,DMfold 仍然优于类似的工具。DMfold 是一个命令行工具,它在精确性和假结判断方面表现出色。这对于 lncRNAs 来说很重要,因为已经证明 lncRNAs 可以形成假结结构,例如对于 p53激活所需要的 MEG3的保守序列。
RNA 结构预测通常是相对容易出错的,因此使用 SHAPE ,PARIS和 SPLASH等技术进行实验验证是很有必要的。LncRNA 相互作用
RNA 相互作用数据库
这种数据库记录了RNA相互作用,还有许多预测工具,有实验证据的数据库将更加可靠。另外, lncRNA 的相互作用也可能在不同的细胞类型或疾病背景下有所不同,这取决于各自的转录组和细胞蛋白质组,这两者都没有被预测算法所考虑。在这里,我们讨论了两个实验确定的相互作用数据库: RNAInter和RISE (来自测序实验的 RNA 相互作用数据库)。
RNAInter
网址:http://www.rna-society.org/rnainter/
从超过31000个文献及35个RNA相关数据库中获取总条目超过4100万条的多种类型RNA互作数据,同时结合RNA编辑、定位、修饰、靶区域、结构以及同源互作等注释信息,为使用者提供更为全面和细致的数据资源,并提供各种搜索、查询以及图形展示等功能。另外,对于并未在以往文献或数据库中报道过的RNA互作关系,则可通过平台内嵌的应用性工具在线进行文献挖掘和预测,可为使用者拓展新的研究方向提供更多参考,从而整体提升了平台数据的覆盖度与应用性。RISE
网址:http://rise.zhanglab.net/
RISE是2018年发布的一个数据库,包含来自H. sapiens、M. musculus和S. cerevisiae以及这些物种的10个不同细胞系的328,811个RNA-RNA相互作用。这些相互作用是从多个高通量测序实验和针对性研究中确定的。LncRNA-RNA相互作用预测
大多数RNA-RNA相互作用预测工具使用热力学原理来寻找相互作用的MFE。其他方法包括基于对齐的方法,如RIsearch;基于同源的方法,如PET cofold;以及深度学习模型,如GPLPI。
LnChrom
网址:http://biocc.hrbmu.edu.cn/LnChrom/
LnChrom 是最近发表的一个实验验证的 lncna-chromatin 相互作用的综合数据库。含了382743个实验检测到的 lncna-chromatin 相互作用信息,涉及263个人类和小鼠组织类型的2390个 lncRNA。它还包括每个相互作用对的多组和元数据,如染色质修饰、相关蛋白和任何与lncRNA介导的染色质调控相关的疾病。数据库中的大部分信息来自高通量实验,如 ChIRP-seq 和 CHART-seq ,总数据的70% 属于人类。Triplexator
lncRNA 能够与DNA双链形成DNA-RNA三链结构。
预测lncRNA-DNA直接相互作用的一种方法是估计DNA-RNA三链结构形成的可能性。由于没有实验证据证明我们感兴趣的lncRNA会形成这样的三联体,因此可用来评估lncRNA-DNA三联体形成可能性的预测算法数量有限。Triplexator是目前可用的最精确和可用的工具。LncRNA-Protein相互作用预测
预测方法主要基于序列、结构、以及理化性质。
SFPEL-LPI是一种机器学习的、基于集成的方法预测LncRNA-Protein相互作用。功能预测
仅从序列上预测lncRNA的功能在lncRNA生物学领域一直是一项具有挑战性的任务。这里我们介绍一种预测工具SEEKR,它使用基于k-mer的分类来比较lncrna并推断其功能。
SEEKR
SEEKR是使用基于 k-mer 的分类来比较 lncRNAs 并推断其功能。该方法利用lncRNA序列中K-mer的相对频率,基于与其他lncRNA的相似性来推断其功能。SEEKR旨在计数特定长度的k-mer在lncRNA序列上的出现,并将这些计数标准化,形成 “k-mer profile”。两个lncRNA的k-mer profile可以通过皮尔逊相关性(Pearson correlation)来测试其相似性,这使得两个几乎没有线性同源性的lncRNA揭示其k-mer相似性。在实践中,如果lncRNA与特征明确的lncRNA具有较高的k-mer相似性,这将指导研究者通过实验方法来验证其功能。
两个国产数据库
LncSEA数据库 ·
2020年10月12日,哈尔滨医科大学李春权教授课题组在国际著名杂志《Nucleic Acids Research》上发布重磅数据库LncSEA (https://doi.org/10.1093/nar/gkaa806)。LncSEA收集整合了20多个已发表数据库中的lncRNA功能信息,不仅包括下游调控的lncRNA功能集合,还通过计算大量高通量测序数据TF ChIP-seq、DNase-seq、ATAC-seq和H3K27ac ChIP-seq等预测了上游lncRNA转录调控相关集合。
LncSEA(http://bio.liclab.net/LncSEA/index.php)着重于收录已发表的人类各种lncRNA信息,并可以对用户提交的lncRNA集合进行注释和富集分析,提供超过40000种参考lncRNA集合,包括18个类型(miRNA,drug,disease,methylation pattern,cancer specific phenotype,lncRNA binding protein,cancer hallmark,subcellular localization,survival,lncRNA-eQTL,cell marker,enhancer,super-enhancer,transcription factor,accessible chromatin and smORF,exosome和conservation)和66个亚类,包含超过了5万条lncRNA。
LncSEA主要包括Analysis,Search,Browse,ID conversion,Download 5个功能模块LncExpDB:人类非编码RNA的数据表达库
2020年11月12日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库LncExpDB正式上线。该研究成果以马利娜副研究员与章张研究员为共同通讯作者,以“LncExpDB: an expression database of human long non-coding RNAs”为题在Nucleic Acids Research(IF: 11.501)上发表。LncExpDB数据库致力于提供多生物学场景的lncRNA表达谱,鉴定具有潜在功能的lncRNA,促进lncRNA的功能实验研究。