NGS流程层出不穷,哪怕是以我持续7年累积写作1.3万篇教程的高产来说,也没办法囊括全部的知识点。但是只需要学到了我的知识整理方法,对一个入门级别工程师来说,摸索新流程其实并不难!这里,我们以CUT&Tag 数据处理为例子,因为今早起来我在朋友圈看到了“二货潜”的分享,非常认真的一个小伙伴,他给CUT&Tag 数据处理写了一个手把手教程,没有遇到应有的读者,值得大力推荐:
- CUT&Tag 数据处理与分析教程 一(官方手把手教学)
- CUT&Tag 数据处理与分析教程 二:质控(不需要修剪 reads!不需要修剪 reads!不需要修剪reads!)和数据比对
- CUT&Tag 数据处理与分析教程 三:BAM 文件统计(CUT&Tag 不建议去重不去重不去重)
- CUT&Tag 数据处理与分析教程 四:Spike-in 对 CUT&Tag 数据的校正 对数据的校正
- CUT&Tag 数据处理与分析教程 五:Peak calling
- CUT&Tag 数据处理与分析教程 六:数据可视化
- CUT&Tag 数据处理与分析教程 七:差异分析
如果你看过我表观组学,比如《ChIP-seq数据分析》 和 《ATAC-seq数据分析》 就会分析,其实绝大部分ngs组学流程数据处理大同小异的,当然了,肯定是会有一些细微差异是需要注意的。
首先可以参考其它NGS组学技能
比如我在生信技能树就录制了多个NGS组学数据分析教学视频的,都免费在B站,而且组建好交流群,见:
- 免费视频课程《RNA-seq数据分析》
- 免费视频课程《WES数据分析》
- 免费视频课程《ChIP-seq数据分析》
- 免费视频课程《ATAC-seq数据分析》
- 免费视频课程《TCGA数据库分析实战》
- 免费视频课程《甲基化芯片数据分析》
- 免费视频课程《影像组学教学》
- 免费视频课程《LncRNA-seq数据》
- 免费视频课程《GEO数据挖掘》
- 肿瘤基因测序
如果你认真看了我是五年前是如何设置这些ngs教学大纲就应该是很容易明白,一个新的ngs流程该如何学习。无非是找案例,看综述,画流程,安装软件,调试测试数据,解释图表,最后延伸到自己的数据。
但是,什么是一个入门级别工程师呢,我认为首先必须具备生物信息学编程基础知识,就是基于R语言的统计可视化,以及基于Linux的NGS数据处理。
必须生物信息学编程基础知识
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
- 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。
- 第5阶段:任务提交及批处理,脚本编写解放你的双手。
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。
学徒作业
自学这个CUT&Tag 数据处理,完成 Efficient low-cost chromatin profiling with CUT&Tag. Nat Protoc 2020 Oct;文章的配套数据:GSE145187的处理。