再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
- 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余、查找、切割、替换、合并、补齐,熟练掌握awk、sed、grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。
- 第5阶段:任务提交及批处理,脚本编写解放你的双手。
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。
考虑到绝大部分粉丝即使购买了对应的书籍仍然是需要视频课程带入门,这里我推荐阿里云大学和腾讯云大学的公开课给大家。
首先看腾讯云大学的Linux入门
之前我们生信菜鸟团已经发布的:购买入门级服务器免费送Linux直播培训服务 其实就提到过这个腾讯云大学,就是无需购买10块钱的云服务器就可以学Linux的骚操作,因为是薅腾讯的羊毛,而且还有免费的教学,都是他们的工程师。我以前推荐学生做这个:https://cloud.tencent.com/developer/labs/lab/10000 点击进入就是一个免费的服务器,可以使用几个小时, 足够你跟着他们的免费教学视频入门Linux啦!
教学视频在:https://cloud.tencent.com/edu/learning/course-1676-12066
大家可以直接从第3章开始学习,常规文件夹及文件管理基础命令不多
ls ## list 列出当前路径下信息
pwd ## print working directory 打印工作目录,即当前所在目录
cd ## change directory 切换目录
mkdir ## make directory建立一个新的目录
touch ## 创建文本
mv ## Move 更改文件或目录,移动目录或文件
rm ## ReMove 删除目录或文件
cp ## copy and paste 将给出的文件或目录复制到另一个文件或目录中
tar ## Tape archive 解压文件
ln ## LINk 链接文件
3. 基操之常用命令
- 3.1 章节介绍
- 3.2 Linux命令帮助文档的使用
- 3.3 文件目录创建及切换等命令
- 3.4 相对路径和绝对路径
- 3.5 文件目录命名规则
- 3.6 ls命名详解
- 3.7 文件目录拷贝命令
- 3.8 重命名及移动命令
- 3.9 文件目录删除命令
- 3.10 文件内容查看命令
- 3.11 软链接和硬链接
- 3.12 history命令
- 3.13 echo命令完成覆盖和追加内容
- 3.14 文件命令综合案例
- 3.15 时间命令
- 3.16 tar打包及解压
- 3.17 tar结合gzip压缩
- 3.18 tar结合bzip2
- 3.19 压缩在大数据中的使用详解
- 3.20 系统命令实操
4. 文本编辑上古神器之VIM
- 4.1 章节介绍
- 4.2 VIM神器概述
- 4.3 VIM工作模式
- 4.4 VIM插入命令
- 4.5 VIM定位命令
- 4.6 VIM删除命令
- 4.7 VIM复制粘贴命令
- 4.8 VIM替换和取消命令
- 4.9 VIM退出命令
5. 爱恨情仇之用户、 用户组及权限管理
- 5.1 章节介绍
- 5.2 Linux安全性模型
- 5.3 用户详解
- 5.4 用户组详解
- 5.5 用户管理
- 5.6 用户组管理
- 5.7 Linux文件和目录的权限解读
- 5.8 权限管理实操之字符表示法
- 5.9 权限管理实操之数字表示法
- 5.10 权限管理实操之赋予可执行权限
6. 行走江湖之常用软件安装
- 6.1 章节介绍
- 6.2 Linux软件安装概述
- 6.3 RPM方式软件安装实操
- 6.4 YUM方式软件安装实操
- 6.5 JDK安装实操
- 6.6 Tomcat安装实操
6.7 MySQL安装实操
- 7 课程总结
- 7.1 Linux 基础入门
当然了,这个只能说是简单的认识Linux,如果你想精通,还是建议购买一个最低配服务器,跟着练习。
再看阿里云大学的R语言
之所以注意到阿里云大学,还是我复旦大学的一个学徒提到的,因为她参加了我们生信技能树的生信入门后,觉得可以吊打阿里云大学的R语言五条街!
链接是:
- https://edu.aliyun.com/course/27/lesson/list?spm=5176.8764728.aliyun-edu-course-tab.2.66642371X3S98U
学习量和播放量是没的说!
课程目录如下:
- 课时1:R语言是什么、R的优势、资源16:08
- 课时2:R的安装、获取帮助、工作空间管理23:35
- 课时3:R包的使用、结果的重用、如何处理大数据集23:43
- 课时4:R数据集的概念、向量、矩阵和数组27:43
- 课时5:R数据框、因子和列表24:51
- 课时6:R的常用命令17:38
- 课时7:R的list列表详解15:19
- 课时8:R的数据源导入方法22:41
- 课时9:R的用户自定义函数14:05
- 课时10:R访问MySQL数据库13:01
- 课时11:R的集成开发环境(IDE)—Rstudio17:49
- 课时12:R如何画图,图形参数、符号、线条和颜色25:10
- 课时13:R图形的文本属性、尺寸、标题和自定义坐标轴36:38
- 课时14:R图形的次要刻度线、参考线、图例和文本标注30:25
- 课时15:R的图形组合、图形布局的精细控制30:57
- 课时16:R基本的数据管理——创建变量、变量重编码和重命名21:43
- 课时17:R基本数据管理——如何处理缺失值、日期值得使用、数据类型转换30:14
- 课时18:R基本数据管理——数据集合并、子集的提取以及随机抽样函数22:23
- 课时19:R高级数据管理——数学函数、统计函数和概率函数21:19
- 课时20:R高级数据管理——字符处理函数、将函数应用于矩阵和数据框17:49
- 课时21:R高级数据管理——重复和循环、条件执行、转置19:24
- 课时22:R基本图形——条形图(堆砌、分组、均值)、条形图的微调26:36
- 课时23:R的基本图形——饼图17:04
- 课时24:R基本图形——直方图09:55
- 课时25:R基本图形—核密度图10:05
- 课时26:R基本图形——箱线图08:27
- 课时27:R实例——预测海藻数量之问题描述与目标、数据集格式16:12
- 课时28:R实例——预测海藻数量之数据预处理17:47
- 课时29:R实例——预测海藻数量之获取预测模型12:37
- 课时30:R实例——预测海藻数量之模型的精简和调优
还等什么呢,赶快去学习体验对比一下哦!
学习后可以试试看我们的周末班全套练习题:
R语言的练习题
- 初级10 个题目,尽量根据参考代码理解及完成:http://www.bio-info-trainee.com/3793.html
- 中级要求是:http://www.bio-info-trainee.com/3750.html
- 高级要求是完成20题: http://www.bio-info-trainee.com/3415.html
- 统计专题 30题:http://www.bio-info-trainee.com/4385.html
- 可视化专题30题:http://www.bio-info-trainee.com/4387.html
LINUX的练习题:
- 最低要求是完成我的 linux 20题 http://www.bio-info-trainee.com/2900.html
- 其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff),收集这些格式的说明书。
- fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
- sam和bam格式文件的shell小练习 http://www.bio-info-trainee.com/3578.html
- VCF格式文件的shell小练习 http://www.bio-info-trainee.com/3577.html