前面我们在生信技能树分享了:中国大学MOOC的生物信息学公开课之河南科技大学 ,然后在生信菜鸟团分享了:中国大学MOOC的生物信息学之华中农业大学。
但是《中国大学MOOC》这个平台,大家不怎么主动去学习,反倒是B站成为了学习中心。最近就看到有人搬运了不少生物信息学相关视频课程在b站,所以我们继续这个《资源》推荐专辑:
今天带来的是: 2021计算生物学与生物信息学课程STAT115 — by 刘小乐教授
https://www.bilibili.com/video/BV1Dt4y1B7rU/
目录如下:
- Lect1.1 Protein Wave
- Lect1.2 Expression Wave
- Lect1.3 Sequencing Wave
- Lect1.4 Big Data Challenge
- Lect1.5 Bioinfo vs Comp Bio
- Lect1.6 Is Class Right For Me
- Lect 1.7 Course Information
- Lab1.1 Introduction
- Lab1.2 Intro to R
- Lab1.3 Intro to Bash
- Lab1.4 Intro to Harvard Cannon Cluster
- Lect3.1 RNA-seq Applications
- Lect3.2 RNA-seq Experimental Design
- Lect3.3 RNA-seq Alignment
- Lect3.4 RNA-seq QC
- Lect3.5 RSEM vs Salmon
- Lect3.6 RNA-seq Read Distribution
- Chapter 5.2 Differential RNA-seq
- Chapter 5.3 Multiple Hypotheses Testing and False Discovery Rate
- Chapter 5.5 Gene Ontology
- Chapter 5.6 Gene Set Enrichment Analyses
- Lab2.1 STAR Tutorial
- Lab2.2 RSeQC Tutorial
- Lab2.3 RSEM/Salmon Tutorial
- Chapter 6.1/2 Hierarchical Clustering
- Chapter 6.3 K-means Clustering
- Chapter 6.4 Considerations of Kmeans Clustering
- Chapter 6.5 Batch Effect Removal
- Lab 3.1 PCA Tutorial
- Lab 3.2 Clustering Tutorial
- Lab 3.3 Combat Tutorial
- Lab 3.4 DESeq2 Tutorial
- Lab 3.5 GO, DAVID & GSEA Tutorial
- Chapter 7.1 Introduction to Principal Component Analysis (PCA)
- Chapter 7.2 Principal Component Analysis (PCA) Applications
- Chapter 7.3 Multidimensional Scaling (MDS)
- Chapter 7.4 Linear Discriminant Analysis (LDA)
- Lab 4.1 K-Nearest Neighbors Tutorial
- Lab4.2 Regression Tutorial
- Lab4.3 Logistic Regression Tutorial
- Lab4.4 Support Vector Machine Tutorial
- Lab4.5 Random Forest Tutorial
- Chapter 9.1 Module I Review
- Chapter 9.2 Module I Review, Analysis Scenario 1
- Chapter 9.3 Module I Review, Analysis Scenario 2
- Chapter 10.1 Transcription Regulation
- Chapter 10.2 Expectation Maximization for Motif Finding
- Chapter 10.3 Gibbs Sampling for Motif Finding
- Chapter 10.4 Motif Finding General Practices
- Chapter 10.5 Motif Conservation and Modules
- Chapter 11.1 ChIP-seq
- Chapter 11.2 ChIP-seq Peak Calling with MACS and QC
- Chapter 11.3 TF Interactions from ChIP-seq
- Chapter 11.4 TF Target Genes from ChIP-seq
- Lab5.1 MACS Tutorial
- Lab5.2 ChIP-seq QC Tutorial
- Lab5.3 TF Motif Finding Tutorial
- Lab5.4 TF Collaborator Tutorial
- Chapter 12.1 Intro to DNA Methylation
- Chapter 12.2 DNA Methylation Pattern and Function
- Chapter 12.3 DNA Methylation in Diseases
- Chapter 12.4 Techniques to Measure DNA Methylation
- Chapter 13.1 Nucleosome Positioning
- Chapter 13.2 Introduction to Histone Modifications
- Chapter 13.4 Using Histone Marks to Infer Gene Functions
- Chapter 13.5 Introduction to DNase-seq and ATAC-seq
- Chapter 13.6 Infer TF from Differential Genes Using LISA
- Chapter 13.7 DNase-seq
- Chapter 13.8 Summary of Epigenetics and Chromatin
- Lab6.1 ChIP-seq Expression Integration
- Lab6.2 Cistrome-GO Tutorial
- Lab6.3 ATAC-seq Analysis and LISA Tutorial
- Chapter 14.1 Markov Chain
- Chapter 14.2 Hidden Markov Model
- Chapter 14.3 Hidden Markov Model Forward Procedure
- Chapter 14.4 Hidden Markov Model Backward Procedure
- Chapter 14.5 HMM Forward-Backward Algorithm
- Chapter 14.6 Viterbi Algorithm
- Chapter 14.7 Baum Welch Algorithm Intuition
- Chapter 14.8 HMM Bioinformatics Applications
- Chapter 15.1 Introduction to Chromatin Interaction and Organization
- Chapter 15.2 Methods to Investigate 3D Genome Organization
- Chapter 15.3. Topologically Associating Domains
- Chapter 15.4 TAD Function and Loop Anchors
- Chapter 15.5 Chromatin Compartments
- Chapter 15.6 Computational Methods to Call Chromatin Loops
- Chapter 15.7 Variations of Chromatin Interaction Technologies
- Chapter 15.8 Resources for Exploring 3D Genomes
- Lab7.1 BS-seq and Bismark Tutorial
- Lab7.2 Tutorial on Associating DNA Methylation with Expression
- Lab7.3 HiC Analysis Tutorial
大家不要妄想听完这个课就学会了生物信息学
生物信息学是一个很大的概念,如果把它比作是奥运会,跳高跳远和跑步的就是完全不同的项目,而且仅仅是跑步就有长跑短跑跨栏多个项目。假如你要参加奥运会要先学会爬行,然后走路,接着跑步,再次是专业的训练比如腹式呼吸等等。同理,虽然说大家都是在做生物信息学,有人做的是蛋白质结构预测,有人做的是代谢组和蛋白质组学,而我们公众号教程里面通常说的生物信息学指的是基于ngs的各种ngs组学,甚至都不包括三代测序这样的小众方向。
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
- 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。
- 第5阶段:任务提交及批处理,脚本编写解放你的双手。
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。
这样的课程, 比如:中国大学MOOC的生物信息学公开课之河南科技大学 ,以及:中国大学MOOC的生物信息学之华中农业大学,北京大学生物信息学:学习方法(完整带课件)(总计14个小时)。都不是直接对你的ngs组学技能负责的,就好比你如果是想参加奥运会的100米短跑,它这样的课程就是告诉你走路的基本原理,并不能直接决定你奥运会成绩,但是不知道走路的基本原理肯定是会在跑步的时候会知其然不知其所以然。
这样的课程,是给你打基础的,后续你仍然是需要主动加强R语言和Linux技能,学习后可以试试看我们的周末班全套练习题:
R语言的练习题
- 初级10 个题目,尽量根据参考代码理解及完成:http://www.bio-info-trainee.com/3793.html
- 中级要求是:http://www.bio-info-trainee.com/3750.html
- 高级要求是完成20题: http://www.bio-info-trainee.com/3415.html
- 统计专题 30题:http://www.bio-info-trainee.com/4385.html
- 可视化专题30题:http://www.bio-info-trainee.com/4387.html
LINUX的练习题:
- 最低要求是完成我的 linux 20题 http://www.bio-info-trainee.com/2900.html
- 其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff),收集这些格式的说明书。
- fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
- sam和bam格式文件的shell小练习 http://www.bio-info-trainee.com/3578.html
- VCF格式文件的shell小练习 http://www.bio-info-trainee.com/3577.html
然后就可以看我B站免费NGS数据处理视频课程,已经组建了微信交流群的有下面这些: