那么我们一起来看看科研及临床一般都是进行怎样的分析吧!
其实,科研流程很简单。很多综述性的文章中都有提到,就是(QC、alignment、variation calling、annotation、statistics/visualization),区别就在于每一个步骤所选择的软件,软件相应的参数,执行何种criteria,流程图如下:
本次直播中,我本人的测序合同我已经签订好了,从理论上来讲是人的全基因组测序,覆盖度30X,也就是90G的raw data,测序策略是PE150,采用illumina的HiSeq X,用DNA小片段文库(350bp)进行建库(如果以上名词有不懂的,请尽快自主搜索,学习理解)。拿到数据后我会从数据分析的角度来详细讲解测序数据质量控制的方方面面,包括测序质量,接头,污染序列,其中会提到一些经典软件的用法,在我博客(搜索:生信菜鸟团)里面有大部分软件使用操作手册。然后在比对阶段,我会尝试不同的参考基因组进行比对,包括hg19和hg38,尝试比较选择不同参考基因组所得到的结果有何种区别,也会尝试一下BGI出品的炎黄基因组及韩国人史上最完整的基因组(详见2015年10月5日发表《Nature》的De novo assembly and phasing of a Korean human genome)。对于比对的结果,我也会做基本的QC,主要参考文章:Three-stage quality control strategies for DNA re-sequencing data。
最后重头戏就是找variation了,跟参考基因组不一样的地方,包括snv、indel、cnv、sv,分别有自己适用的软件。我会比较多个软件的结果,尽量找到可信的variation,同时也会做基本的QC,严格的结合质量值、测序深度、重复性等因素进一步过滤筛选,过滤掉假阳性。但是跟参考基因组不一样的地方不一定就是有意义的,我还会根据一系列的数据库来注释找到variation。其中会利用到数据库数据主要有:
dbsnp147 (ncbi提供的最权威)
cgi69ExAC.vcf.gz(broadinstitute提供的外显子联盟)
Cosmic_v73.ann.vcf.gz (癌症突变信息集)
finalTCGA.vcf.gz (TCGA计划癌症相关)
1000g-ph3v5.gff.gz(千人基因组计划)
ESP6500(Variants from the Exome Sequencing Project (ESP))
还有各个国家级的基因组计划的数据(SCLP,SSM,SSI,GONL,UK10K)
三种主流注释软件我都会使用,包括VEP,ANNOVAR,snpEFF。
临床分析本质上就是关联到一系列的疾病,所以会用到各种疾病相关的数据库,包括OMIN,clinVAR,HGMD,GWAS,给出各个疾病的风险值,最后给出一些生活营养建议来预防疾病的发生。其中,大部分疾病评估是依据GWAS数据库对变异位点进行注释从而评估个体化疾病风险的,用药建议是根据PharmaGKB网站,遗传病风险则是HGMD数据库进行注释。如果公司报告做得越详细,那就是对这几个数据库理解越深刻。在临床分析过程中,通常你会看到下面的疾病风险和生活建议:
2型糖尿病[Type 2 Diabetes]
静脉血栓栓塞症 [Venous Thromboembolism]
肥胖症 [Obesity]
结直肠癌 [Colorectal Cancer]
肺癌 [Lung Cancer]
系统性硬化症 [Scleroderma]
乳腺癌 [Breast Cancer]
系统性红斑狼疮 [Systemic Lupus Erythematosis]
心房颤动 [Atrial Fibrillation]
前列腺癌 [Prostate Cancer]
慢性肾病 [Chronic Kidney Disease]
帕金森病 [Parkinson’s Disease]
银屑病 [Psoriasis]
类风湿性关节炎 [Rheumatoid Arthritis]
胆结石 [Gallstones]
冠心病 [Coronary Heart Disease]
6-磷酸葡萄糖脱氢酶缺乏症 [G6PD Deficiency]
血色沉着病 [Hemochromatosis]
常染色体隐性遗传性多囊肾疾病 [ARPKD]
肥厚型心肌病 [Hypertrophic Cardiomyopathy]
遗传性耳聋 [Deafness]
先天性遗传疾病汇总
地中海贫血 [Beta Thalassemia]
遗传性果糖不耐症 [Hereditary Fructose Intolerance]
肢带型肌营养不良症 [Limb-girdle Muscular Dystrophy]
胼胝体发育不良[ACCPN]
苯丙酮尿症 [Phenylketonuria]
镰状细胞性贫血和疟疾的抵抗力 [Sickle Cell Anemia&Malaria Resistance]
药物反应汇总
氯吡格雷
β-受体阻滞药
咖啡因代谢
华法林
二甲双胍
您的遗传性状汇总
耳垢类型
男性型秃发
味觉感知能力
肌肉表现型
生物性老化
酒精性脸红反应
进行评估疾病的风险及用药指导等一些公共数据库,大家都是一样的,略微差别是在于各公司的私有数据。还有一些其它特征,比如天赋神马的,则是有GWAS找GWAS,没有就自己找文献,进行挖据关联等。但本次个人全基因组测序的直播毕竟不是公司行动,个人力量和精力都是有限的,所以不可能像商业化的公司那样做出动辄几百页的测序报告,而且对正常人意义也真心不大。但是对病人,这个全基因组测序就非常有用了,可以帮助确诊引起某个疾病的病因,尤其是癌症病人。或者指导有家族性后发遗传病的有针对性的避免同样的结局,比如那个接受双侧乳腺切除的好莱坞红星安吉丽娜·朱莉。