我喜欢把TCGA数据库的应用划分为8个领域:
- 1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线)
- 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图)
- 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程)
- 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图)
- 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图)
- 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序
- 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线)
- 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布
前面我已经把一百多位优秀本科生带入了生物信息学的大门,接下来五年该大家奉献自己的博士成果了。如果大家感兴趣秀本科生活动, 已经带领了近100名优秀本科生了解生物信息学相关毕业设计:这120万我就不要了,送给500名优秀本科生,符合条件的继续报名哈!
不知不觉一个月都过去了,优秀本科生已经学完了R语言和Linux,虽然说他们还很稚嫩,也不可能这么快就有自己的服务器,但是已经都购买了最低配云服务器,见:还说啥呢,继续免费啊,里面的:购买入门级服务器免费送Linux直播培训服务,我相信他们的未来是光明的。
在没有服务器的日子里,就只能是先安排大家继续完善统计可视化的学习,包括我们一直强调的TCGA数据挖掘技能。
其中一个学生看到文献有下面这个图表,咨询如何做到:
我把它拆解一下:
- 首先下载TCGA某个癌症的maf文件,里面记录的是肿瘤病人的somatic突变信息
- 然后下载该癌症全部病人的临床信息
- 然后根据指定基因,比如上图的BAP1和SETD2在maf文件里面查询是否突变把病人分组
- 2个基因突变与否是可以分成4组,上图比较的是两个基因都没有突变的1个组,与剩余的3个组来看生存差异
- 生存曲线当然是R语言啦
加油哦,等你完成作业。我们已经多次介绍过生存分析:
- 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强
你可以任意选择一个癌症, 完成这个作业
文末友情宣传
强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:
- 生信爆款入门-全球听(买一得五)(第4期),你的生物信息学入门课
- 数据挖掘第2期(两天变三周,实力加量),医学生/临床医师首选技能提高课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路,还等什么,看啊!!!