给初学者的忠告，不要拿一套垃圾数据入门！

垃圾数据对初学者的伤害真的很可怕！

最近在带一些朋友入门，想起了当年自己入门的各种凄惨惨戚戚！

碱基质量值很差，GC不平衡，还有接头，PCR重复也很多，kmer值也很诡异，时间都耗在QC上面了，结果几个月下来，你一个流程都没搞明白，各种查资料，还是在原地打转。

做个转录组类似的找差异基因的，傻X实验设计者没有设计重复，一个case，一个control，搞毛线呀！即使有重复，组内相关性极差，还不如对照。而且各个样本量测序极其不一致，头大。比对效率低的惊人，让你怀疑人生，是不是参考基因组用错了？垃圾物种，连个参考都找不到，入什么门，晕在外面了。好不容易比对了，发现找不到全面的参考基因注释，又累个半死。好不容易挑选了一个合适的找差异基因的方法，发现就那么几个显著差异的，或者一万多个都显著，哭晕！

做个ChIP-seq类似的找peaks的，说好20M~50M数据量的，结果还分成批次，一次10M,一次7M，你分开比对分开call吧，一个样本是几千的peaks，另一个是几万的peaks，蒙圈。合并起来call吧，peaks的个数即便是合并也不是折中，只好去看MACS2的源代码，继续蒙圈。调整一下mfold吧，加上--lambda吧，peaks数量犹如过山车。在IGV也看的傻眼。有control的，发现control和case的peaks一模一样~~~~oh my god！杀了我吧

做个外显子类似的找变异位点吧，我想不起来我遇到过什么坑了，好像这个很简单。

一	二	三	四	五	六	日
« 九
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

给初学者的忠告，不要拿一套垃圾数据入门！