以前在《生信技能树》(才发现居然已经是 2019-08-22的事情了)我们介绍过中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库GSA (Genome Sequence Archive):[不止是NCBI的SRA可以下载测序数据](https://mp.weixin.qq.com/s/DqgQlBaSGt73e4SeEeTJoQ)
但是最近我看文献,发现超级多单细胞研究的数据,都是上传到了华大的类似的中心(原始组学数据归档库),如下:Single-Cell Atlas of Immune Cells in TNBC Reveals a TCR+ Macrophage Subset 来源标识: CNGB Project ( ID CNP0000286 ) 数据类型: Transcriptome or Gene expression 相关领域: Medical 项目编号: CNP0000286
当然了,这个研究其实是因为本来就是华大牵头,所以存储在他们自己的数据库中心很容易理解。数据量真的是非常可观:
目前我不知道这样的数据库如何下载,但是感觉我以前的很多教程要开始慢慢过气了,随着各式各样的中国崛起的科研中心。我以前是介绍prefetch命令下载sra文件,通常呢,速度太慢!然后会介绍:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件,比如项目地址是: https://www.ebi.ac.uk/ena/browser/view/PRJEB33490
大家看到的B站NGS数据分析教学视频,都是如此:
- 免费视频课程《RNA-seq数据分析》
- 免费视频课程《WES数据分析》
- 免费视频课程《ChIP-seq数据分析》
- 免费视频课程《ATAC-seq数据分析》
- 免费视频课程《TCGA数据库分析实战》
- 免费视频课程《甲基化芯片数据分析》
- 免费视频课程《影像组学教学》
- 免费视频课程《LncRNA-seq数据》
- 免费视频课程《GEO数据挖掘》
- 肿瘤基因测序
中国科研崛起的速度让人激动
昨天在朋友圈看到大家都在分享 文章:https://svn.bmj.com/content/early/2020/12/17/svn-2020-000664 研究者们 we conduct WGS for 10 914 patients from CNSR-III. 这个文章好像就2个图,仅仅是报道这样的数据量就是一个里程碑啦。
作者团队使用我国具有全部知识产权的高通量测序系统(BGISEQ-500),对CNSR-III中收集的10,914例缺血性卒中或短暂性脑缺血发作患者进行全基因组测序,平均测序深度达到30X。对测序数据进行质控后,检出每个患者携带的单核苷酸变异、插入-缺失变异、拷贝数变异、结构变异等遗传变异,并根据生物信息软件及公开数据库、已发表文献等对这些遗传变异进行注释和预测,以期找到潜在的影响卒中发生、发展或预后的功能性变异。虽然作者文末提出来说 Data in this article are available upon reasonable request.
半年前我看到新闻《华西2亿元采购十万例罕见病WGS》,如下所示:
这些数据,最后想必都是上传到CNGBdb,这样大体量的测序,一般来说都是华大测序仪,自己的数据没道理上传到国外的数据库,而且法律也禁止。