多组学分析大行其道的今天,同一个病人我们可以对其做多次不同技术的测序,比如TCGA计划就有不下8种数据:
- DNA Sequencing
- miRNA Sequencing
- Protein Expression array
- mRNA Sequencing
- Total RNA Sequencing
- Array-based Expression
- DNA Methylation
- Copy Number array
对tcga那样的超大规模协同组织,样品弄混的事情可能很少发生,但是该做的质量控制仍然是必不可少的。对小课题组来说,怀疑自己的多个样品是否来自于同一个病人就很正常不过了,比如大清早我就在群里看到了这样的问题:
他对同一个病人做了hic和重测序,但是不确认是不是搞混了,其实很简单的,这些数据,都是可以比对到参考基因组,然后提取snp位点,看看相关性就好了!germline的snp的相关性
这里借用一个队列研究,看中国人和高加索人,越南人的族群差异,方法描述如下:
理论上,不同地理区域的人之间的差异应该是要小于区域外的人。细节知识点
- SNP和SNV
- dbSNP
- 使用0,1,2这样的数值来编码野生型,杂合,纯合子位点
- dendextend
其实,该文章进化树的形式展现结果并不好,如下:
其实可以改为PCA图,我在直播我的基因组就多次介绍过 - 【直播】我的基因组54:把我的variation跟dbSNP数据库相比较
- 【直播】我的基因组55:简单的PCA分析千人基因组的人群分布
- 【直播】我的基因组56:探索遗传起源
- 【直播】我的基因组57:最简陋的祖源分析
- 【直播】我的基因组58:用R包SNPRelate来对我的基因型跟hapmap计划数据比较
当然了,也有造好的轮子来完成这样的检查哦,其实很早以前我就在生信技能树推荐过,但是找不到链接了。
如果你感兴趣这个五年前的直播活动,欢迎点击:直播我的基因组分析-目录-1-73集文末友情宣传
强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:
- 生信爆款入门-全球听(买一得五)(第4期),你的生物信息学入门课
- 数据挖掘第2期(两天变三周,实力加量),医学生/临床医师首选技能提高课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路,还等什么,看啊!!!