最近在朋友圈看到了一幅漫画:等一朵花开需要很多耐心和微笑:
挺有意思的,而且是各个地区中小学生话题作文的题目来源,让我回忆起来了九年义务教育被作文支配的恐惧。
此次省略800字。。。
完结。。。。
其实学生物信息学也是如此,不能急于求成, 还是得坚持长期主义,也不能投机取巧,弄三两个网页工具就沾沾自喜,也不可能忽略基础直接学高阶技能。
因为单细胞技术的流行,现在的很多小伙伴初次接触生物信息学数据分析是从单细胞转录组数据开始的,所以大家可能会喜欢单刀直入,要么是问需要多久学会单细胞要么是问单细胞该如何学。这个时候我喜欢让提问者在学单细胞转录组之前,先了解一下单细胞和转录组各自的分析思路!
首先需要一定量的R语言编程基础知识
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
一定要自己购买5本以上的R语言书籍,而且保证每个书都看五遍以上!
然后了解表达量矩阵数据分析常见图表
所谓的表达量矩阵数据分析常见图表,其实就是走差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文就明白了;
- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
然后理解转录组数据分析(充分的实战)
如果大家对数据挖掘的中间过程的合理性不好把握,建议看完我两年前带学徒的时候,安排他们做的文献关键图表复现作业系列笔记分享,如下:
第一期(2018年秋季)
- 保姆式GEO数据挖掘演示—重现9分文章
- GEO数据挖掘-第一期-胶质母细胞瘤(GBM)
- GEO数据挖掘-第二期-三阴性乳腺癌(TNBC)
- GEO数据挖掘-第三期-口腔鳞状细胞癌(OSCC),WGCNA
- GEO数据挖掘-第四期-肝细胞癌(HCC),WGCNA
- GEO数据挖掘-第五期-肝细胞癌(HCC)-多组分开差异分析
- GEO数据挖掘-第六期-RNA-seq数据也照挖不误
- TCGA数据库的TP53突变型和TP53野生型BRCA病人的差异分析结果
- GEO数据库的耐药与敏感的患者组织内的成纤维细胞比较
- TCGA数据库中三阴性乳腺癌在亚洲人群中的差异表达
- TCGA数据库的有PIK3CA基因突变的肿瘤病人的转录水平变化
- TCGA数据库里面的乳腺癌的芯片表达数据进行差异分析
第二期(2019年全年)
- 1. 公共数据辅助乳腺癌的免疫治疗机制研究
- 2. 有生物学意义的复杂热图
- 3. 干扰MYC‑WWP1通路重新激活PTEN的抑癌活性——3步搞定GSEA分 析
- 4. 按基因在染色体上的顺序画差异甲基化热图
- 5. 热图、⻙恩图、GO富集分析图(有了转录组数据不知道该怎么写⽂ 章,看我就对了!)
- 6. 纯R代码实现ssGSEA算法评估肿瘤免疫浸润程度
- 7. 肿瘤异质性+免疫浸润细胞数据挖掘(可能是最简单的3分⽂章了)
- 8. ArrayExpress数据库的基因芯⽚原始数据处理,3D主成分图及聚类热 图
- 9. 学徒数据挖掘第⼆期汇总之多分组基因注释代码⼤放送
- 10. TCGA数据辅助甲基化区域的功能研究
- 11. 你确定你的差异基因找对了吗?
- 12. 看nature⽂章是如何设计和使⽤普通转录组数据
- 13. 不⼀定正确的多分组差异分析结果热图展现
- 14. 如果传统bulk转录组数据队列⾜够⼤也可以使⽤单细胞流程
- 15. 最简单的芯⽚挖掘也会出错(菜⻦团周⼀数据挖掘专栏第?期)
- 16. 乳腺癌的IHC分类和PAM50分型的差异情况
接着理解单细胞降维聚类分群
其中不一定要10X单细胞转录组数据表达量矩阵才能供你练习,cytof这样的质谱流式也是可以做单细胞降维聚类分群,比如《生信技能树》发布的系列文字版教程:
- 1.cytof数据资源介绍(文末有交流群)
- 2.cytofWorkflow之读入FCS文件(一)
- 3.cytofWorkflow之构建SingleCellExperiment对象(二)
- 4.cytofWorkflow之基本质量控制(三)
- 5.cytofWorkflow之聚类分群(四)
- 6.cytofWorkflow之人工注释生物学亚群(五)
- 7.cytofWorkflow之亚群比例差异分析(六)
最后才是单细胞数据分析本身
如果你没有单细胞转录组认知,需要先看看基础10讲:
- 01. 上游分析流程
- 02.课题多少个样品,测序数据量如何
- 03. 过滤不合格细胞和基因(数据质控很重要)
- 04. 过滤线粒体核糖体基因
- 05. 去除细胞效应和基因效应
- 06.单细胞转录组数据的降维聚类分群
- 07.单细胞转录组数据处理之细胞亚群注释
- 08.把拿到的亚群进行更细致的分群
- 09.单细胞转录组数据处理之细胞亚群比例比较
最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释