垃圾数据对初学者的伤害真的很可怕!
最近在带一些朋友入门,想起了当年自己入门的各种凄惨惨戚戚!
碱基质量值很差,GC不平衡,还有接头,PCR重复也很多,kmer值也很诡异,时间都耗在QC上面了,结果几个月下来,你一个流程都没搞明白,各种查资料,还是在原地打转。
做个转录组类似的找差异基因的,傻X实验设计者没有设计重复,一个case,一个control,搞毛线呀! 即使有重复,组内相关性极差,还不如对照。而且各个样本量测序极其不一致,头大。比对效率低的惊人,让你怀疑人生,是不是参考基因组用错了?垃圾物种,连个参考都找不到,入什么门,晕在外面了。好不容易比对了,发现找不到全面的参考基因注释,又累个半死。好不容易挑选了一个合适的找差异基因的方法,发现就那么几个显著差异的,或者一万多个都显著,哭晕!
做个ChIP-seq类似的找peaks的,说好20M~50M数据量的,结果还分成批次,一次10M,一次7M,你分开比对分开call吧,一个样本是几千的peaks,另一个是几万的peaks,蒙圈。合并起来call吧,peaks的个数即便是合并也不是折中,只好去看MACS2的源代码,继续蒙圈。调整一下mfold吧,加上--lambda吧,peaks数量犹如过山车。在IGV也看的傻眼。有control的,发现control和case的peaks一模一样~~~~oh my god!杀了我吧
做个外显子类似的找变异位点吧,我想不起来我遇到过什么坑了,好像这个很简单。