按照我们带领10万人入门生物信息学的经验来看,RNA-seq基础数据分析无疑是最适合初学者的,我们划分好了8个部分:https://mp.weixin.qq.com/s/UudD1ZhKaFPvwugUBL7z3A 而且也有完整的视频学习资料:
- 代码参考:https://www.jianshu.com/p/a84cd44bac67
- 视频教程见:https://www.bilibili.com/video/av28453557
所以我们的RNA-seq小考核也是基于此!Q1: 参考基因组及注释文件下载地址
列出人,小鼠,拟南芥的基因组序列,转录组cDNA序列,基因组注释gtf文件下载地址
Q2: 找到文章的测序数据
2018年12月的NC文章:Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing 使用成熟的
单细胞转录组( Smart-seq2 )
手段探索了癌相关的成纤维细胞 CAFs的功能和空间异质性。Q3:下载测序数据
主要是理解GEO链接: GSE111229 和原始测序数据:SRP133642 两个链接
Q4: 任意挑选6个样本走标准的RNA-seq上游流程
即 sra → fastq→bam→counts
注意每个步骤的质控细节,注意每个步骤的文件格式转换背后的生物学意义。
代码参考在:codeQ5: 理解RNA-seq上游流程得到的表达矩阵的多种形式
包括 每个基因比对到的
reads数量
的counts矩阵,以及去除了每个细胞测序数据量(文库大小)差异
后的 rpm 矩阵,以及去除了基因长度效应
的 rpkm矩阵,以及最近比较流行的tpm 矩阵
。Q6: 任取6个样本表达矩阵随意分成2组走差异分析代码
代码参考:https://github.com/jmzeng1314/GEO/tree/master/airway_RNAseq
需要汇总PCA,heatmap,火山图,MA图,CV图等等Q7:挑选差异分析结果的统计学显著上调下调基因集
在R里面,对统计学显著上调下调基因集,进行GO/KEGG等数据库的超几何分布检验分析,原理参考:https://mp.weixin.qq.com/s/M6CRe39xmQ_lSQqeM99kow
Q8: 直接对任取6个样本表达矩阵做GSVA分析