找变异简单点说,就是把高通量测序得到的成千上万条序列片段比对到合适的参考基因组,找到那些成
功比对的片段与参考基因组的微小差异情况。 那么就涉及到存储测序数据的fastq数据格式,比对的工具,比对后的sam格式,找微小差异的工具,差异结果的vcf文件,每个步骤的软件选择,参数 调整。当然,最重要的是走通整个流程,明白自己在做什么。
找变异简单点说,就是把高通量测序得到的成千上万条序列片段比对到合适的参考基因组,找到那些成
功比对的片段与参考基因组的微小差异情况。 那么就涉及到存储测序数据的fastq数据格式,比对的工具,比对后的sam格式,找微小差异的工具,差异结果的vcf文件,每个步骤的软件选择,参数 调整。当然,最重要的是走通整个流程,明白自己在做什么。
昨天我们说到,测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format,而BAM就是SAM的二进制文件。通常sam文件太大,我们会生成bam文件来节省空间。sam文件和bam文件的转换用samtools这个软件就可以完成。 Continue reading
简单说一下什么是找变异,变异跟突变有什么区别呢?举个栗子:有国际组织规定了人类的参考基因组(如UCSC,ENSEMBL,NCBI等,前面帖子都有讲),就是 AAAAA(这里简化一下,就5个碱基,其实人类基因组多达30亿个) 。现在通过给自己测序得知,我与之对应的是AGCAA,那么我相比国际基因组来说,就是2个变异位点,位于基因组的坐标2和3,但是它们还不能说就是突变。 Continue reading
dbSNP的ID直接在NCBI的dbSNP官网可以看到详细介绍,现在已经更新到146版本了,一般人看到一个ID肯定什么信息都获取不到,毕竟这只是人家NCBI规定的一个ID而已。但是HGVS突变形式就有非常详细的信息了。
人类基因组变异协会(HGVS)官方组织规定了mutation该如何记录:http://www.hgvs.org/mutnomen/recs.html 推荐大家都仔细阅读!!!
A general framework for estimating the relative pathogenicity of human genetic variants.
Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892.
PubMed PMID: 24487276.