17

转载-VCF格式详解

CHROM(chromosome):染色体

POS - position:参考基因组variant碱基位置,如果是INDEL(插入缺失),位置是INDEL的第一个碱基位置

ID - identifier: variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用’.'表示其为一个novel variant。

REF - reference base(s):参考碱基,染色体上面的碱基,必须是ATCGN中的一个,N表示不确定碱基

ALT - alternate base(s):与参考序列比较发生突变的碱基

QUAL - quality: Phred格式(Phred_scaled)的质量值,表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。

FILTER - _filter status: 使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为”PASS”或”.”。

INFO - additional information:  这一行是variant的详细信息,具体如下:

DP-read depth:样本在这个位置的reads覆盖度。是一些reads被过滤掉后的覆盖度。          DP4:高质量测序碱基,位于REF或者ALT前后

MQ:表示覆盖序列质量的均方值RMS Mapping Quality

FQphred值关于所有样本相似的可能性

AF1 AF(Allele Frequency) 表示Allele的频率,AF1为第一个ALT allele 发生频率的可能性评估

AC1AC表示Allele(等位基因)的数目,AC1为对第一个ALT allele count的最大可能性评估

AN:AN(Allele Number) 表示Allele的总数目

IS插入缺失或部分插入缺失的reads允许的最大数量

ACAC(Allele Count) 表示该Allele的数目

G3ML 评估基因型出现的频率

HWE:chi^2基于HWE的测试p值和G3

CLR在受到或者不受限制的情况下基因型出现可能性log值

UGT:最可能不受限制的三种基因型结构

CGT:最可能受限制三种基因型的结构

PV4四种P值得误差,分别是(strand、baseQ、mapQ、tail distance bias)

INDEL:表示该位置的变异是插入缺失

PC2非参考等位基因的phred(变异的可能性)值在两个分组中大小不同

PCHI2后加权chi^2,根据p值来测试两组样本之间的联系

QCHI2:Phred scaled PCHI2.

PR置换产生的一个较小的PCHI2

QBD:Quality by Depth,测序深度对质量的影响

RPB序列的误差位置(Read Position Bias)

MDV:样本中高质量非参考序列的最大数目

VDB:Variant Distance Bias,RNA序列中过滤人工拼接序列的变异误差范围

GT样品的基因型(genotype)。两个数字中间用’/'分 开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。

GQ基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越 大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。

GL三种基因型(RR RA AA)出现的可能性,R表示参考碱基,A表示变异碱基

DV高质量的非参考碱基

SPphred的p值误差线

PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能 性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

FORMAT BC1-1-base.sorted.bam这两行合起来提供了’ BC1-1-base′这个sample的基因型的信息。’ BC1-1-base′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。

17

转-基因突变种类大全

突变(Mutation, 即基因突变):在生物学上的含义,是指细胞中的遗传基因(通常指存在于细胞核中的脱氧核糖核酸)发生的改变。它包括单个碱基改变所引起的点突变,或多个碱基的缺失、重复和插入。原因可以是细胞分裂时遗传基因的复制发生错误、或受化学物质、辐射或病毒的影响。

以功能分类:

失去功能的突变Loss-of-function mutations

失去功能的突变是指发生的突变会造成基因完全地失去活性,原因可分成两类。一类是由于基因被删除或是调控基因表现的过程受到影响让基因不表现,另一种则是由于基因本身受到影响,使得基因的产物蛋白质失去功能。又称剔除突变null mutations)或是敲除突变knockout mutations)。

次形态突变Time form mutation此种突变会使基因的表现或是基因产物的活性减弱,但不会消失。

超形态突变hypermorphic mutations此种突变与次形态突变相反,会使基因的表现加强

获得功能的突变gain-of-function mutation获得功能的突变是指发生的突变让原本应该是不表现的基因产生活性,进而影响细胞功能,这样的突变多半需要染色体程度的突变较有可能产生,而最常发生获得功能的突变就是癌细胞。

以突变机理分类:

  1. 点突变point mutation:DNA序列中涉及单个核苷酸或碱基的变化称为点突变。 通常有两种情况:一是一种碱基或核苷酸被另一种碱基或核苷酸所替换;二是一个碱基的插入缺失。

                   (1)沉默突变silent mutation

当点突变发生在基因及其调控序列之外,或使基因序列内一种密码子变成编码同一种氨基酸的另一种同义密码子时,不会改变生物个体的基因产物,因而不引起性状变异。不引起生物性状变异的突变称为沉默突变。

                   (2)错义突变missense mutation

指由于某个碱基对的改变,使编码一种氨基酸的密码子变成编码另外一种氨基酸的密码子,结果使构成蛋白质的数百上千个氨基酸中有一个氨基酸发生变化。(实例:镰刀形细胞贫血症

                   (3)移码突变frameshift mutation

指在DNA链上,有时一个或几个非3的整数倍的碱基的插入或缺失,往往产生比碱基替换突变更严重的后果。 这种插入或缺失突变会造成阅读框的改变,翻译过程中其下游的三联密码子都被错读,产生完全错误的肽链或肽链合成提前终止。这种插入或缺失突变又称为移码突变。

                   (4)无义突变nonsense mutation

是指当点突变使一个编码氨基酸的密码子变成终止子时,则蛋白质合成进行到该突变位点时会提前终止,结果产生一个较短的多肽链或较小的蛋白质。

  1. 大突变

大突变是可能涉及整个基因以至多个基因的一长段DNA序列的改变,大突变常常导致染色体畸变。

(1)缺失:指DNA分子丢失一段碱基序列。(染色体缺失)(Deletion)

(2)插入:指DNA分子的正常序列中插入一段DNA序列。(Insertion②)

(3)重排:重排包括某段DNA序列的重复(duplication),倒位(inversion),易位(translocation)等。