众所周知,发布在bioconductor的包主要是生物信息学相关,在官方可以看到其主要是分成3类:
- 软件方面的包(包括各种芯片数据处理,NGS数据处理,差异分析等等!)
- 注释方面的包(第二类是一系列的基因组注释包,主要是各种ID的转换,kegg或者GO这样的功能注释,还有其它基因信息注释,转录本,外显子起始终止等等)
- 实验数据的包(每一个实验数据包都是一篇优秀的生物信息学分析文章,分析方法,思路都是值得学习的!)
不过,bioconductor除了罗列这3种包,还给了一些其它资源,比如:
-
S4对象的讲解(这个是综合性质的讲解,因为bioconductor系列的包的基础就是一系列对象及函数,需要细致的讲解)
-
AnnotationWorkflow (3) BasicWorkflow (5) EpigeneticsWorkflow (4) GeneExpressionWorkflow (11) GenomicVariantsWorkflow (2) ImmunoOncologyWorkflow (14) ProteomicsWorkflow (2) ResourceQueryingWorkflow (2) SingleCellWorkflow (2)
-
其它学习资源收集与翻译( bioconductor牵头的一些网络公开课或者研讨会)
以前看到这些资源的时候,发现每个bioconductor都是一篇生物信息学文章, 那个时候还在诧异,这科研文章都这么容易的吗?
但是刚才看到了一个单细胞文章,标题是:《scConsensus: combining supervised and unsupervised clustering for cell type identification in single-cell RNA sequencing data》,链接是:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04028-4 其实就是一个生物信息学包,也就是说都不需要正式发布在bioconductor的包也可以发文章了。
其代码和数据都是公开的:
- Zenodo (https://doi.org/10.5281/zenodo.3637700).
- GitHub at https://github.com/prabhakarlab/scConsensus.
其实还是很值得学习哈!
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
- 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。
- 第5阶段:任务提交及批处理,脚本编写解放你的双手。
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。