这个数据库我也不想多解释了,也是host在NCBI上,不仅有常见的模式生物已经被研究过的所有variation位点信息,还有很多其它物种的数据,主站点是:ftp://ftp-trace.ncbi.nih.gov/snp/organisms/
人类是物种ID是9606,可以看到variation位点信息有基于hg19和hg38的两种下载方式,如果还有其它需求,可以自己用基因组坐标转换工具。在NCBI的snp页面也有对各种物种的variation位点信息记录文件的统计:http://www.ncbi.nlm.nih.gov/snp/ http://www.ncbi.nlm.nih.gov/SNP/同时也是NCBI做好的一个网页版查询工具,因为下载一个 variation位点信息记录文件 动辄就是十几个G,一般人也不会处理那个文件,不知道从里面应该如何提取需要的信息,这时候学习它的网页版查询工具也挺好的。
但是对真正搞生物信息学分析的人来说,就必须呀完全掌握这个站点以及里面的全部文件了。我比较感兴趣的是关于人类的研究,所有数据都在下面:
Nov 24 2015 00:00 Directory human_9606_b146_GRCh37p13 Apr 20 2016 19:39 Directory human_9606_b146_GRCh38p2 Apr 20 2016 19:23 Directory human_9606_b147_GRCh37p13 Apr 23 2016 03:59 Directory human_9606_b147_GRCh38p2
在UCSC里面也有对dbsnp数据库的介绍,主要是从数据库设计的角度来理解,里面详细介绍了每一列具体的意义,值得大家仔细学习。
http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp146&hgta_table=snp146&hgta_doSchema=describe+table+schema
但是如果真想从数据库语言的角度来理解,需要看它的schema了:很复杂:ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf
还根据gene来分genotype:ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/
最后值得一提的是,除了dbsnp对variation规定了ID号,还有几个其它偏门的ID号也可以来描述变异位点的。
NCBI的dbsnp,以rs和ss开头
illumina的kgp开头
还有ESP的以esp开头
kgp是illumina中华八芯片的
kgp identifiers were not created by the 1000 Genomes Project. We also do not maintain them. They were created by Illumina for their genotyping platform before some variants identified during the pilot phase of the project had been assigned rs numbers.
We do not possess a mapping of these identifiers to current rs numbers. As far as we are aware no such list exists.
用DBsnp的数据,根据Illumina提供的注释文件,可以找到相应的RSID号。
Updating kgp IDs to rs IDs for SNPs on Illumina HumanOmni2.5M array