最近安排实习生在整理转录组相关知识点,他也有自己的公众号,有一个保研专栏,感兴趣可以去看看!
本次实习生整理了我前两天发布的《 徒有虚名的单细胞转录组 》里面的数据集的驴转录组数据分析流程,目录如下所示:
1 数据下载
1.1 sra数据下载
1.2 数据处理
1.3 sra转fastq
1.4 fastqc质控
2 参考基因组和注释文件下载
3 rawdata trim过滤
3.1 trim-galore过滤
3.2 fastqc质控
4 比对
4.1 建立索引
4.2 比对
4.3 qualimap
5 定量
5.1 安装featureCounts
5.2 定量
5.3 数据处理
6 R包安装
7 样本检测
7.1 箱型图
7.2 小提琴图
7.3 密度曲线图
8 样本之间的相关性
8.1 层次聚类树
8.2 PCA图
因为实习生对sam文件和bam的不熟悉,导致磁盘空间消耗有点大;
19G ./2_rawfastq
12G ./1_rawdata
17G ./3_cleandata
118G ./4_mapping
62M ./5_counting
6.0G ./1_genome
170G .
其实 那个 4_mapping 文件夹里面存储的是 sam文件,完全没有必要存储它,直接转为 二进制版本的bam即可!
2.SAM格式
5.bed格式
6.vcf格式
实习生的笔记链接是:https://www.yuque.com/docs/share/58725654-6765-4215-8f44-91cb552956bf