最近接了几个不同癌症队列的panel测序数据分析项目,大多是在基因加、南京世和等公司购买的panel和测序服务。
数据分析我们一般希望是从fastq的测序数据文件开始,但是因为并不是常规肿瘤外显子,所以使用agilent的v6不管用,很多流程都需要其panel对应的个性化的bed文件。但是找那些公司索取的时候,居然说是保密的???
我就纳闷了,基因列表有什么好保密的?本身在各个会展都可以看到公司的panel的宣传啊,那些基因明明是打印出来了作为宣传单!
而且,文章发表的时候也得放附件啊!比如文章:《Genomic analysis of multiple myeloma using targeted capture sequencing in the Japanese cohort》的 附件就很清楚列出来了基因:
肿瘤panel测序文章解读
一般来说就是5个步骤:
- snv和cnv的突变全景图
- cnv的gistic2结果展示
- 突变的临床分类探讨
- 突变的临床关联探讨
- 生存分析确定临床意义
snv和cnv的突变全景图
需要病人的属性,maf格式的somat 的snv信息,以及segment格式的cnv信息,得到全景图如下所示:
这样的结论是: - Of the 154 patient samples tested, 153 cases (993%) har- boured at least one single nucleotide variant or indel with a median number of 4 (range: 0–20).
- 112 significantly mutated genes (q < 01 and mutated more than twice) were identified.
- In total, 747 nonsynonymous mutations/indels were detected in significantly mutated genes using targeted capture sequencing.
- More than 10% of the patients had mutations in the following five genes:
绝大部分病人都有somatic的突变位点,而且112个基因至少在两个及以上的病人出现过,这些基因上面共有747个突变位点,有5个基因在10个以上的病人出现了。cnv的gistic2结果展示
segment格式的cnv信息很容易跑gistic2软件,然后继续载入maftools就可以得到如下所示的拷贝数变异图
突变的临床分类探讨
病人的临床分类就很个性化了,比如这个就区分并且展现在了前面的突变全景图里面,如下所示临床分类:
但是最后作者在图里面展现的是按照年龄划分:
突变的临床关联探讨
这个文章主要是探讨了 HRD is known to increase in frequency with age, and a similar trend was observed in our cohort (P < 005).
生存分析确定临床意义
一般来说,肿瘤panel涉及的基因就几百个,跑个循环就可以挑出来了那些有统计学显著的,比如文章就展示了:
我在生信技能树多次分享过生存分析的细节; - 人人都可以学会生存分析(学徒数据挖掘)
- 学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢?
- 基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大?
- 学徒作业-两个基因突变联合看生存效应
- TCGA数据库里面你的基因生存分析不显著那就TMA吧
- 对“不同数据来源的生存分析比较”的补充说明
- 批量cox生存分析结果也可以火山图可视化
- 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析
- 多测试几个数据集生存效应应该是可以找到统计学显著的!
- 我不相信kmplot这个网页工具的结果(生存分析免费做)
- 为什么不用TCGA数据库来看感兴趣基因的生存情况
- 200块的代码我的学徒免费送给你,GSVA和生存分析
- 集思广益-生存分析可以随心所欲根据表达量分组吗
- 生存分析时间点问题
- 寻找生存分析的最佳基因表达分组阈值
- apply家族函数和for循环还是有区别的(批量生存分析出图bug)
- TCGA数据库生存分析的网页工具哪家强
- KM生存曲线经logRNA检验后也可以计算HR值
生存分析是目前肿瘤等疾病研究领域的点睛之笔!长期提供肿瘤队列数据分析
如上所示的分析,主要是基于R语言的统计可视化,收费8000元,如果是从fastq文件开始,就涉及到快递硬盘,涉及到计算机资源租用,价格翻倍哈!
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理: - 《生信分析人员如何系统入门R(2019更新版)》
- 《生信分析人员如何系统入门Linux(2019更新版)》
把R的知识点路线图搞定,如下: - 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习: - 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。
- 第5阶段:任务提交及批处理,脚本编写解放你的双手。
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。
如果你学会了就可以自己分析
所以我们也有课程推荐: