不要拿一套垃圾数据入门

做生物信息学也有七八个年头了,早在五六年前,我刚开始写教程的时候,那个时候还是个人博客《生信菜鸟团》就提到过一个观点:给初学者的忠告,不要拿一套垃圾数据入门!原贴见:http://www.bio-info-trainee.com/2321.html

垃圾数据对初学者的伤害真的很可怕!

首先,七八年前的测序仪产出的数据,碱基质量值很差,GC不平衡,还有接头,PCR重复也很多,kmer值也很诡异,时间都耗在QC上面了,结果几个月下来,你一个流程都没搞明白,各种查资料,还是在原地打转。
做个转录组类似的找差异基因的项目呢,发现傻X实验设计者没有设计重复,一个case,一个control,搞毛线呀! 即使有重复,组内相关性极差,还不如对照。而且各个样本量测序极其不一致,头大。比对效率低的惊人,让你怀疑人生,是不是参考基因组用错了?更有甚者,垃圾物种,连个参考都找不到,入什么门,晕在外面了。好不容易比对了,发现找不到全面的参考基因注释,又累个半死。好不容易挑选了一个合适的找差异基因的方法,发现就那么几个显著差异的,或者一万多个都显著,哭晕!
做个ChIP-seq类似的找peaks的项目呢,说好20M~50M数据量的,结果还分成批次,一次10M,一次7M,你分开比对分开call吧,一个样本是几千的peaks,另一个是几万的peaks,蒙圈。合并起来call吧,peaks的个数即便是合并也不是折中,只好去看MACS2的源代码,继续蒙圈。调整一下mfold吧,加上—lambda吧,peaks数量犹如过山车。在IGV也看的傻眼。有control的,发现control和case的peaks一模一样~~~~oh my god!杀了我吧!
做个外显子类似的找变异位点项目吧,发现有一些肿瘤研究居然仅仅是测肿瘤样品本身,没有血液或者正常组织样品作为对照。或者大量reads都是多比对情况,或者近一半的测序数据在线粒体基因?excuse me,我是外显子啊并不是单细胞转录组。

更多踩坑经验欢迎分享

因为现在绝大部分小朋友都是以单细胞转录组数据项目来入门生物信息学的了,所以相信大家遇到的坑应该是各有千秋,欢迎大家的分享。
比如10X单细胞转录组项目的测序数据明明应该是3个文件,你只拿到了其中1个,或者其它事故或者故事!

最好的入门方式

如果你也想开启自己的生物信息学数据处理生涯,但是自学起来困难重重,还等什么呢,赶快行动起来吧!参加我们生信技能树官方举办的学习班:

Comments are closed.