如果你也是hg19和hg38傻傻的分不清,可以先看看我五年前的博客介绍:
首先是NCBI对应UCSC,然后对应ENSEMBL数据库:
GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
可以看到ENSEMBL的版本特别复杂!!!很容易搞混!但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38。看起来NCBI也是很简单,就 GRCh36,37,38。目前是没有hg39参考基因组的!
但是最近看到一个文献里面的关于转录组数据处理过程的描述居然就出现了hg39参考基因组,如下所示:
文章标题是:《A single‐cell RNA expression atlas of normal, preneoplastic and tumorigenic states in the human breast》
这个数据链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE161892
样本的数据处理详情是:
- Libraries were sequenced on an Illumina NextSeq 500.
- At least 20 million 75 bp paired-end reads were obtained for each sample.
- Reads were aligned to the human genome hg38 by Rsubread version 1.5.3 Read counts were summarized by Entrez Gene ID using the Rsubread featureCounts function and Rsubread’s inbuilt RefSeq annotation.
- Genome_build: hg38
可以看到其实是一个乌龙,仅仅是文章作者自己写错了而已,并没有实际上使用hg39参考基因组。转录组的流程我们其实多次反复分享了:视频观看方式 - 视频免费在B站:https://www.bilibili.com/video/BV12s41137HY 大家学习的时候记得发弹幕交流哈。
- 也有微云离线版本视频下载本地播放:
-
- 上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi
- 下游主要是基于counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi
- RNA-SEQ实战演练的素材:https://share.weiyun.com/5h1Z2QY ,包括一些公司PPT,综述以及文献以及测试数据
- RNA-SEQ 实战演练的思维导图:文档链接:https://mubu.com/doc/38y7pmgzLg 密码:p6fo
下游的标准分析,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可; - 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
但是hg39还是有希望的
虽然并不是真正的hg39参考基因组出来了,但是最近看到朋友圈都在转发Biorxiv. 的文章:《Nurk et al., (2021 )The complete sequence of a human genome.》,doi: https://doi.org/10.1101/2021.05.26.445798
首个完整人类基因序列发布:端粒到端粒联盟小组T2T发布人类基因组的第一个完整序列。
挺有意思的,期待!