下载IGV和导入文件的方法我就不多说了,可以直接在windows平台下使用,就跟你操作QQ一样,自己摸索就好了!
著名芬兰运动员Eero Mäntyranta,他拿过七枚奥运奖牌。他的血红细胞远超正常人水平,甚至一度被奥组委误以为服用了禁药。后来经过研究发现,他的EPOR基因上的一个位点rs121918116,发生了一个G>A的变异,使得他的血氧含量达到了普通人的150%,所以他耐力惊人。
在snpPedia里面可以查看这个位点的信息:http://snpedia.com/index.php/Rs121918116
rs121918116, also known as c.1317G>A, p.Trp439Ter or W439X,is a rare mutation in the EPOR erythropoietin receptor gene on chromosome 19.
看得出来这个变异造成了EPOR基因翻译的蛋白的氨基酸的改变,对EPOR基因的功能是有影响的
在dbSNP里面可以查看它在人的hg19坐标系的定位是chr19:11488870
(https://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=121918116)
前面我们已经把55G的bam文件按照染色体拆分了,那么我们就在IGB里面直接打开我们的19号染色体的bam文件来查看这个位点吧!
首先在坐标输入框里面输入EPOR基因,可以定位到整个基因,看看基因的全景。
然后输入具体的坐标:
可以看到,我的这个位点,跟参考基因组这个位点的碱基是一模一样的,唉,看来我是没有传说中的运动天赋了。可是我觉得我跳远跳高都还不错呀。(大学记录,立定跳远是2.6米)
(当然,没有这个变异位点其实也是好事,所谓的运动天赋其实是一种病——家族性良性红细胞增多症,这种病会导致人脸红(可能关羽也有这种病,千里走单骑,耐力超好)、嗜睡、容易头痛。)
理论上这种方法可以把我的全基因组数据全部check一遍,这样就知道每个位点是否跟参考基因组不一致了,但是这个工作量太大了,我们作为数据分析人员不会选择这种方式,而是用已经被公认的软件来批量处理。后面我们会讲到,但是软件得到的变异情况,如果某个位点非常重要,推荐用IGV加载bam文件,然后定位到具体的坐标来仔细检查。
比如下面,可以大体上看到RGL3这个基因跟hg19参考基因组不同的地方还真不少,但是呢,这些variation真的影响健康吗?意义大吗?这就需要后面来具体探讨了。
也可以顺便看看第12讲提到的两个rs位点:
6 32666295 :Rs9275319--HLA-DQ
2 191964633 :Rs7574865--STAT4
但是需要载入不同的bam文件,分别是6号染色体和2号染色体,这样可以验证一下是不是我们的bcftools整个软件没有call到变异,是否是假阴性。
参考:
http://wap.sciencenet.cn/blogview.aspx?id=37068
好了 这一集就讲到这里,下面我们会详细讲解用软件CALL SNP 的细节
敬请期待!
请扫描以下二维码关注我们,获取直播系列的所有帖子!