虽然我这七年在生信技能树、生信菜鸟团、单细胞天地写了几万篇教程,制作了几百个小时的教学实战演练视频课程,都是免费分享在各大网站(B站,知乎,简书,博客,GitHub,微云),但我也并不是什么都会,比如蛋白质组和代谢组以及宏基因组我就没有机会去尝试,必然就不可能制作它们的数据处理视频。凡是我会的,录制了视频的,都会组建好交流群,见:
- 免费视频课程《RNA-seq数据分析》
- 免费视频课程《WES数据分析》
- 免费视频课程《ChIP-seq数据分析》
- 免费视频课程《ATAC-seq数据分析》
- 免费视频课程《甲基化芯片数据分析》
当然了,科研热点一直在变,最近就有很多人咨询我影像组学方面的教程或者视频。关于影像组学
影像组学指高通量地提取大量描述肿瘤特征性的影像特征,最初译为放射组学。
影像组学的概念最早由荷兰学者在2012年提出,其强调的深层次含义是指从影像(CT、MRI、PET等)中高通量地提取大量影像信息,实现肿瘤分割、特征提取与模型建立,凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出最准确的诊断。影像组学可直观地理解为将视觉影像信息转化为深层次的特征来进行量化研究。
影像组学的处理流程总结归纳为以下部分:
(1)影像数据的获取;
(2)肿瘤区域的标定;
(3)肿瘤区域的分割;
(4)特征的提取和量化;
(5)影像数据库的建立;
(6)分类和预测。
参考资料,腾讯网[引用时间2017-12-19]B站影像组学视频课程推荐
因为我本人并没有这样的科研需求,所以不太可能亲自制作影像组学视频啦,但是我在B站看到了一个超级优秀的资源:
小李,浙江大学医学院博士后,中科院博士。
目录如下: - 影像组学「第一期」基础讲解
- 影像组学「第二期」python基操
- 影像组学「第三期」pandas学习
- 影像组学「第四期」进阶学习
- 影像组学「第五期」方差选择法
- 影像组学「第六期」lasso特征选择
- 影像组学「第七期」lasso特征筛选
- 影像组学「第八期」特征提取
- 影像组学「第九期」T检验方差齐性
- 影像组学「第十期」随机森林&T检验
- 影像组学「第十一期」SVM支持向量机
- 影像组学「第十二期」参数优化
- 影像组学「第十三期」p次k折交叉
- 影像组学「第十四期」特征权重作图
还在持续更新
我看了看第15期和第16期已经出来了:
- 影像组学写文章几乎都会用到的ROC曲线,十分钟教你如何搞定!
- pyradiomics的yaml文件应该怎么写,影像组学群讨论答疑
影像组学素材
提到医学图像影像数据,必须首推TCGA数据库啊,在 https://www.cancerimagingarchive.net/ 动辄都是几十个GB的数据。
而且,sklearn有一个breast_cancer数据可以稍微调整一下拿来用,视频课程主理人浙江大学医学院博士后小李也调整了这个数据集更适合新手做入门练习。其实归根结底都是计算机基础
你仔细看目录,各种统计检验,早在三年前我就整理并且制作的TCGA肿瘤数据库知识图谱视频教程使用R语言就统统讲解过。
- 视频地址:https://www.bilibili.com/video/av49363776
- 代码地址:https://github.com/jmzeng1314/tcga_example
课程中共使用了四种算法构建模型: - cox(可做单因素和多因素)
TCGA的cox模型构建和风险森林图 - lasso回归
用lasso回归构建生存模型+ROC曲线绘制 - 随机森林
听起来很霸气用起来并不难的随机森林 - 支持向量机
听起来很霸气用起来并不难的支持向量机
不管用了哪种算法,在R语言里面,核心都只是几句代码而已。
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理: - 《生信分析人员如何系统入门R(2019更新版)》
- 《生信分析人员如何系统入门Linux(2019更新版)》
把R的知识点路线图搞定,如下: - 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习: - 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。
- 第5阶段:任务提交及批处理,脚本编写解放你的双手。
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。
文末友情推荐
要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。
如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班: - 数据挖掘学习班第5期(线上直播3周,马拉松式陪伴,带你入门),原价4800的数据挖掘全套课程, 疫情期间半价即可抢购。
- 生信爆款入门-第7期(线上直播4周,马拉松式陪伴,带你入门),原价9600的生信入门全套课程,疫情期间3.3折即可抢购。
如果你课题涉及到转录组,欢迎添加一对一客服:详见:你还在花三五万做一个单细胞转录组吗?
号外:生信技能树知识整理实习生招募,长期招募,也可以简单参与软件测评笔记撰写,开启你的分享人生!另外:绝大部分生信技能树粉丝都没有机会加我微信,已经多次满了5000好友,所以我开通了一个微信好友,前100名添加我,仅需150元即可,3折优惠期机会不容错过哈。我的微信小号二维码在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》