生物信息学必备计算机背景
书籍贪多不烂,必买工具书如下,每个读5遍以上,或者买同类书籍5本,总之想方设法打牢基础!
- R语言之书 编程与统计 https://book.douban.com/subject/33418263/
- Linux命令行与shell脚本编程大全.第3版
视频必须强推生信技能树近30万学习量的基础合辑:https://space.bilibili.com/338686099/#/
这就是解决20个小时的学习量了,很多时候一些视频需要反复听,保守估计得听40个小时,也有很多人分享了听视频学习R语言的心得体会,比如:生信技能树-R语言视频课听后感 (10万+的播放量就看这个春节)
弹幕听说是很好玩,你可以去感受一下。
首先是LINUX学习
我在《生信分析人员如何系统入门Linux(2019更新版)》把Linux的学习过程分成6个阶段 ,提到过每个阶段都需要至少一天以上的学习:
- 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不在神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量
- 第5阶段:任务提交及批处理,脚本编写解放你的双手
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我
然后是R学习
我在在生信分析人员如何系统入门R(2019更新版) 里面给初学者的知识点路线图如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
而且我专门为R语言建立了 GitHub 仓库存放相关学习路线指导资料:https://github.com/jmzeng1314/R_bilibili 并且配套了一些练习题!
作业
- R语言的初级10 个题目,尽量根据参考代码理解及完成:http://www.bio-info-trainee.com/3793.html
- R语言的中级要求是:http://www.bio-info-trainee.com/3750.html
- R语言的高级要求是完成20题: http://www.bio-info-trainee.com/3415.html
-
下载bowtie2软件压缩包解压并且找到里面的示例数据,走文本处理流程 ,走基本比对找变异流程
- 生信人的 linux 20题 <http://www.bio-info-trainee.com/2900.html
-
处理 fastq,fasta,sam,bam,vcf,gff,gtf,bed,MAF等格式(约定成俗,大牛推广)的数据
- fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
- sam和bam格式文件的shell小练习 http://www.bio-info-trainee.com/3578.html
- VCF格式文件的shell小练习 http://www.bio-info-trainee.com/3577.html
有了基础就可以看数据库挖掘
主要是讲解如何使用R语言走标准分析流程,火山图,热图,GO/KEGG数据库注释等等。这些流程的视频教程都在B站和GitHub了,目录如下:
- 第一讲:GEO,表达芯片与R
- 第二讲:从GEO下载数据得到表达量矩阵
- 第三讲:对表达量矩阵用GSEA软件做分析
- 第四讲:根据分组信息做差异分析
- 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
- 第六讲:指定基因分组boxplot指定基因list画热图
感兴趣可以细读表达芯片的公共数据库挖掘系列推文 ;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
2020最新打包代码在:免费的数据分析付费的成品代码
配套这个单元视频教程的习题我通常是安排给学徒完成,因为公众号粉丝很少有人能学到这个程度,你可以看到视频播放量就一万左右。所以,这些作业就随缘吧。
- 为什么癌症病人据肿瘤单细胞水平的异质性但是细胞系没
- RNAseq数据,下载GEO中的FPKM文件后该怎么下游分析
- GSE83521/GSE89143数据集-需去除批次效应
- GSVA或者GSEA各种算法都是可以自定义基因集的
- limma和edgeR对RNA-seq表达矩阵差异分析的区别
- 为什么不用TCGA数据库来看感兴趣基因的生存情况
如果看到这些习题的你也感兴趣加入我们的在线学徒列表,欢迎随机挑选一个作业尝试完成后,邮件汇报给我你探索的过程!我的邮箱 jmzeng1314@163.com
接着看全栈生信工程师的NGS组学技能
分别是4,5,6,7个小时的教学视频,主要是依托于我在生信技能树/生信菜鸟团过去五年举办的各种NGS组学线上教学经验,相关推文目录是:
- lncRNA数据分析传送门 (2017-12-21)
- 450K甲基化芯片数据处理传送门 ( 2017-09-09)
- ChIP-seq基础入门传送门 ( 2017-08-13)
- 转录组入门传送门 ( 2017-08-07)
如果你留心观察,可以看到近十万的生信工程师都是靠我的这些教学指引来掌握不同的NGS数据处理技术的。
当然了,大部分人不会直接写从我这里学习的,不过没关系哈,资料还是给大家。部分NGS组学讲义思维导图在:
- 学徒第一周:文档链接:https://mubu.com/doc/38tEycfrQg 密码:vl3q
- 学徒第二周:文档链接:https://mubu.com/doc/38y7pmgzLg 密码:p6fo
- 学徒第三周:文档链接:https://mubu.com/doc/1iDucLlG5g 密码:7uch
- 学徒第四周:文档链接:https://mubu.com/doc/11taEb9ZYg 密码:wk29
同样的,我也为每个组学视频课程,设置了练习题:
基本上每个过来我这边学习一个月以上的学徒我都会让他们学习多种组学(围绕着中心法则),而且有了Linux基础和R语言能力后, 跟着我们的视频教程很容易就学会基础流程,毫无压力。
至于提高视频主要看缘分购买
因为不少人是付费参加了我们单细胞课程线下培训,所以我没办法把这些视频免费散播在网路了,这样对付费的学员不是很公平。不过我跟他们约定了两年的期限,两年之后就免费公布哈!
就是讲解的R包及基础流程即可,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 流程也大同小异:
- step1: 创建对象
- step2: 质量控制
- step3: 表达量的标准化和归一化
- step4: 去除干扰因素(多个样本整合)
- step5: 判断重要的基因
- step6: 多种降维算法
- step7: 可视化降维结果
- step8: 多种聚类算法
- step9: 聚类后找每个细胞亚群的标志基因
- step10: 继续分类
其实完全不需要购买视频了,我们配套的学习笔记非常齐全!都是在单细胞天地