为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
文章发表于 2014 Dec 4. doi: 10.4137/CIN.S19435, 到现在引用才6次,可以说是泛癌研究的一朵奇葩!题目是:A Pan-Cancer Analysis of Alternative Splicing Events Reveals Novel Tumor-Associated Splice Variants of Matriptase 文章的中心并不突出,研究团队开发了自己的可变剪切分析流程并且也下载了TCGA的RNA-seq测序数据进行处理,但是即没有提供分析结果,其流程也无法重现,得到的分析结果也没有太多的生物学意义阐述。
文献解读属于100篇泛癌研究文献系列,首发于:http://www.bio-info-trainee.com/4132.html
关于可变剪切
可变剪切是基因转录时,通过组合不同的外显子,形成不同转录本的过程,在生命的信息传递过程中发挥着重要的作用。超过90%人类基因要通过可变剪切产生转录本,其中60%的剪切变体会编码出不同的蛋白质异构体。
本研究的重点是开发了一个可变剪切分析流程,并且应用到了TCGA数据库的fastq测序数据。但是没有提供其流程源代码,也没有提供可变剪切分析结果,只是列出了自己的结论。而且关注点是:Matriptase (MT-SP1, TADG-15, epithin, ST14) was first described in 1993 as a new gelatinolytic activity in cultured breast cancer cells
数据分析流程
作者非常详尽的描述了其实验流程,可惜没有打包为docker镜像或者pipeline,不方便复现这个分析。
关于数据库挖掘
有很多类似的TCGA数据库挖掘文章,比如 4.416Front Oncol. 2018 Nov 2, Genome-Wide Profiling of Prognostic Alternative Splicing Signature in Colorectal Cancer. 深入分析了与结肠癌预后相关的关键可变剪切事件!
SplicSeq软件可以拿到7种可变剪切形式信息:
- 可变受体位点(AA)
- 可变供体位点(AD)
- 可变启动子(AP)
- 可变终止子(AT)
- 内含子保留(RI)
- 外显子跳跃(ES)
- 外显子互斥(ME)
其它类似文章:Alternative splicing events implicated in carcinogenesis and prognosis of colorectal cancer【Journal of cancer;2018.04;IF3.249】关于实验文章
比如邵志敏教授的题为“PHF5A Epigenetically Inhibits Apoptosis to Promote Breast Cancer Progression.”利用CRISPR-Cas9文库技术对RNA结合蛋白进行系统性功能筛选,发现了乳腺癌生存依赖的的剪切因子PHF5A ,TCGA、METABRIC、KMplot以及本中心的研究队列显示,PHF5A在乳腺癌组织中普遍存在高表达,并且其高表达指示着较差的预后。生物学功能上,PHF5A缺失会导致癌细胞增殖、迁移和成瘤能力显著受损。
我们就可以在TCGA数据库里面验证。后记
可变剪切算是TCGA数据库挖掘领域一个比较小众的分支,还有circRNA数据库的circRNA也是类似的分析策略:
18. circRNA学习专题 - circBase 数据库最新信息详解
19. circRNA学习专题 - 癌症特异性数据库 CSCD 使用说明
20. circRNA学习专题 - 人类circRNA数据库 circBank 比较分析
21. circRNA学习专题 - MiOncoCirc:一个值得关注的肿瘤信息网站
22. circRNA学习专题 - circAtlas脊椎动物表达数据库
本文献解读属于100篇泛癌研究文献系列,首发于:http://www.bio-info-trainee.com/4132.html