这个软件比较重要,尤其是对做遗传变异相关研究的,很多人做完了snp-calling后喜欢用ANNOVAR来进行注释,但是那个注释还是相对比较简单,只能得到该突变位点在基因的哪个区域,那个基因这样的信息,如果想了解更具体一点,就需要更加功能化的软件了,snpEFF就是其中的佼佼者,而且是java平台软件,非常容易使用!而且它的手册写的非常详细:http://snpeff.sourceforge.net/SnpEff_manual.html
官网是:http://snpeff.sourceforge.net/
1 889455 . G A . . ## 假设我们的vcf文件里面记录的突变是这个,那么我们可以用snpEFF进行注释,注释得到的信息非常完全!
信息用|符号分割,所有很容易用脚本提取需要的信息
ANN=A|stop_gained|HIGH|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>T|p.Gln236*|756/2790|706/2250|236/749||,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>T|||||351|,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>T|||||4171|,A|non_coding_exon_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000477976|retained_intron|5/17|n.2153C>T||||||;LOF=(NOC2L|ENSG00000188976|6|0.17);NMD=(NOC2L|ENSG00000188976|6|0.17)
包括突变类型是:non_coding_exon_variant
突变在各种转录本上面,在每个转录本的第几个碱基呀,哪个氨基酸的改变呀,氨基酸第几位呀!
标准突变表示形式是:
突变发生在NOC2L这个基因上面,它的ensembl 数据库ID是ENSG00000188976
其余的看头文件自己慢慢理解:
"Functional annotations: 'Allele | Annotation | Annotation_Impact | Gene_Name | Gene_ID | Feature_Type | Feature_ID | Transcript_BioType | Rank | HGVS.c | HGVS.p | cDNA.pos / cDNA.length | CDS.pos / CDS.length | AA.pos / AA.length | Distance | ERRORS / WARNINGS / INFO'
软件安装:
选择最新版软件下载:https://sourceforge.net/projects/snpeff/files/
wget https://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
因为是java软件,unzip 解压之后就可以直接使用,当然前提是你有java平台。
输入数据:
首先下载用来做注释的数据库:java -jar snpEff.jar download GRCh37.75(自己选择需要的版本)
软件下载很快,但是数据库下载就需要一定时间啦,去喝杯咖啡吧。
然后软件本身会提供example文件,里面就是一堆各种各样的vcf数据,而且还提供了运行命令,非常简单(examples.sh) ,这些就是我们的输入数据啦!
运行命令:
运行也很简单:java -Xmx4G -jar snpEff.jar -i vcf -o vcf GRCh37.75 example.vcf > example_snpeff.vcf
指定输入输出格式都是vcf,然后指定刚才下载的必备数据库,然后输入输出文件即可!
也可以调用全路径,如果你写在脚本里面的话!
java -Xmx4G -jar path/to/snpEff/snpEff.jar \
-c path/to/snpEff/snpEff.config \
GRCh37.69 \
path/to/example.vcf > example_snpeff.vcf
结果解读:
这个非常复杂,对结果理解了多少,就是我们对软件理解了多少。
具体大家看readme吧,注释信息太多了,按需索取:
- chromosome_number_variation
- exon_loss_variant
- frameshift_variant
- stop_gained
- stop_lost
- start_lost
- splice_acceptor_variant
- splice_donor_variant
- rare_amino_acid_variant
- missense_variant
- inframe_insertion
- disruptive_inframe_insertion
- inframe_deletion
- disruptive_inframe_deletion
- 5_prime_UTR_truncation+exon_loss_variant
- 3_prime_UTR_truncation+exon_loss
- splice_branch_variant
- splice_region_variant
- splice_branch_variant
- stop_retained_variant
- initiator_codon_variant
- synonymous_variant
- initiator_codon_variant+non_canonical_start_codon
- stop_retained_variant
- coding_sequence_variant
- 5_prime_UTR_variant
- 3_prime_UTR_variant
- 5_prime_UTR_premature_start_codon_gain_variant
- upstream_gene_variant
- downstream_gene_variant
- TF_binding_site_variant
- regulatory_region_variant
- miRNA
- custom
- sequence_feature
- conserved_intron_variant
- intron_variant
- intragenic_variant
- conserved_intergenic_variant
- intergenic_region
- coding_sequence_variant
- non_coding_exon_variant
- nc_transcript_variant
- gene_variant
- chromosome
http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdf