目前bioconductor社区有27个流程,早在2015/2016年我组织生信菜鸟团小伙伴建设bioconductor中文社区的时候就想系统性的学习和分享,一晃四五年过去了, 我们的bioconductor中文社区只有一个空荡荡的主页,我自己的几个笔记而已,很可惜没有能坚持下去,不过现在有数十万粉丝了,这些资料必须得强推给大家,系统性学习生物信息学的宝藏资源!
全部bioconductor流程链接在;http://www.bioconductor.org/packages/release/BiocViews.html#___GeneExpressionWorkflow
目前的27个流程,已经分门别类的整理好了,我们每个月学一个流程,预计两年就可以成为生物信息学领域的全栈工程师啦!
今天学习RNAseq123
我们首先看看转录组领域的基因表达相关流程吧,首先一起学习 RNA-seq analysis is easy as 1-2-3 的是:http://www.bioconductor.org/packages/release/workflows/html/RNAseq123.html 实际上就是使用常见的RNA-seq差异分析包,从头到尾走流程熟悉转录组数据分析的基本知识,让我意外的是,居然是有中文版教程,实在是不能太友好了!
HTML R Script RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR (Chinese version)
HTML R Script RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR (English version)
可能是因为作者里面有不少中国人吧!
R package that supports the F1000Research workflow article on RNA-seq analysis using limma, Glimma and edgeR by Law et al. (2016).
Author: Charity Law, Monther Alhamdoosh, Shian Su, Xueyi Dong, Luyi Tian, Gordon Smyth and Matthew Ritchie
在R里面安装这个bioconductor流程
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("RNAseq123")
因为是有中文的,我就不拷贝粘贴了,大家直接去阅读即可:
- 使用limma、Glimma和edgeR,RNA-seq数据分析易如反掌
- http://www.bioconductor.org/packages/release/workflows/vignettes/RNAseq123/inst/doc/limmaWorkflow_CHN.html
全部目录如下;
- 1 摘要
- 2 背景介绍
- 3 初始配置
- 4 数据整合
- 5 数据预处理
- 6 差异表达分析
- 7 使用camera的基因集检验
- 8 使用到的软件和代码
学习这样的流程是需要一定背景知识的
首先是LINUX学习
我在《生信分析人员如何系统入门Linux(2019更新版)》把Linux的学习过程分成6个阶段 ,提到过每个阶段都需要至少一天以上的学习:
- 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不在神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量
- 第5阶段:任务提交及批处理,脚本编写解放你的双手
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我
然后是R学习
我在在生信分析人员如何系统入门R(2019更新版) 里面给初学者的知识点路线图如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
必备书籍及视频
书籍贪多不烂,下面2本必买,读5遍以上
视频必须强推生信技能树近30万学习量的基础合辑:
生信技能树RNA相关教程节选
因为做目录确实很浪费时间,差不多就下面这些,大家先学习吧:
- miRNA、LncRNA、CircRNA靠谱小结
- 超2万样本的RNA-seq数据重新统一处理(TCGA+GTEx+ TARGET)
- 玩转RNA-seq数据也可以不需要linux ?
- 高表达的PVT1(lncRNA)能够独立且有效地预测葡萄膜黑色素瘤生存情况
- RNA-seq技术已经常规化,你还好意思不掌握吗?
- 你值得拥有的单细胞RNA测序分析工具TOP 3
- 100篇泛癌研究文献解读之snoRNAs
- 100篇泛癌研究文献解读之lincRNA的生存分析情况
- 100篇泛癌研究文献解读之驱动lncRNA
- KM生存曲线经logRNA检验后也可以计算HR值
- 为什么我一行代码就可以完成3个R包的RNA-seq差异分析呢
- 玩转RNA-seq数据也可以不需要linux ?
- 你希望这个探针注释到蛋白编码基因还是miRNA的基因呢
- 如果miRNA的3p和5p功能不一样
- 哪怕是到了2018年,RNA-seq仍然可以不做重复
- 原创10000+生信教程大神给你的RNA实战视频演练
- TCGA的28篇教程-数据挖掘三板斧之ceRNA
- scRNA-seq的表达矩阵待解决的发育生物学问题
- 数据整理这一块工作商业公司可能做得更好-人类lncRNA大全
- GEO数据挖掘-第六期-RNA-seq数据也照挖不误
- 计算MiRNA–mRNA表达相关性
- 使用多个网页工具预测MiRNA–mRNA相互作用
- mRNA-seq数据中的duplicate情况探究
- Bioconductor包chimeraviz嵌合RNA可视化
- TCGA中GBM的RNA-seq和甲基化数据整合分析实践
- 四个公共scRNA-seq来测试算法
- lncRNA数据分析传送门
- RNA测序究竟有多可靠呢
- TCGA数据库里面的乳腺癌样本RNA-seq数据是配对的有哪些?
- 生信小白的RNA-seq实战历程
- RNA-seq数据分析指南
后记
听说隔壁openbiox团队在组织翻译这个bioconductor流程系列,而且还是由我们生信技能树元老-思考问题的熊领头,希望他们的翻译成果早日出版!