正好,我拿到了自己的全基因组测序数据,而前些天看到朋友圈推送的文章提到有研究表明STAT4上的rs7574865和HLA-DQ的 rs9275319是国人群中乙型肝炎病毒(HBV)相关肝细胞癌(HCC)遗传易感基因,我就想顺便看看自己在这两个位点的变异情况。一般的流程是先找完变异位点,然后用vep/snpEFF对变异位点进行注释,然后看看有没有这两个位点。但我仅仅是想查看这两个位点,所以我会根据它的rsID来找到它的基因组坐标,再直接call这个位置的变异情况。以前我都是用dnSNP来查看rsID的基因组坐标的,
mkdir -p ~/annotation/variation/human/dbSNPcd ~/annotation/variation/human/dbSNP## https://www.ncbi.nlm.nih.gov/projects/SNP/## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz &wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz.tbi
比如我会用上面的代码来下载All_20160601.vcf.gz 这个文件,去搜索想要的dbsnp的坐标,当然,这个文件太大了,如果只是搜索一两个位点,没必要那么费工夫,它有网页数据库的,直接修改url即可:
很轻松得到该变异位点所有的信息,但是这次我谷歌这个rsID的时候,发现dbSNP不是排在首位的,而是了一个数据库,snpedia,简单浏览了一下,发现的确做得很赞,值的强烈推荐。
也是同样修改url就可以获取到对应的信息。
但是它强大的地方在,搜集了非常多的其它数据库的链接:
Reference | GRCh38 38.1/141 |
Chromosome | 2 |
Position | 191099907 |
Gene | STAT4 |
is a | snp |
is | mentioned by |
dbSNP | rs7574865 |
ebi | rs7574865 |
HLI | rs7574865 |
Exac | rs7574865 |
Varsome | rs7574865 |
Map | rs7574865 |
PheGenI | rs7574865 |
hapmap | rs7574865 |
1000 genomes | rs7574865 |
hgdp | rs7574865 |
ensembl | rs7574865 |
gopubmed | rs7574865 |
geneview | rs7574865 |
scholar | rs7574865 |
rs7574865 | |
pharmgkb | rs7574865 |
gwascentral | rs7574865 |
openSNP | rs7574865 |
23andMe | rs7574865 |
23andMe all | rs7574865 |
SNP Nexus | |
SNPshot | rs7574865 |
SNPdbe | rs7574865 |
MSV3d | rs7574865 |
GWAS Ctlg | rs7574865 |
很容易看出这些链接都是有规律的,就是我最喜欢的修改url啦,其实是利用网络传输的post/get请求来创建网页~