不要拿一套垃圾数据入门

做生物信息学也有七八个年头了，早在五六年前，我刚开始写教程的时候，那个时候还是个人博客《生信菜鸟团》就提到过一个观点：给初学者的忠告，不要拿一套垃圾数据入门！原贴见：http://www.bio-info-trainee.com/2321.html

垃圾数据对初学者的伤害真的很可怕！

首先，七八年前的测序仪产出的数据，碱基质量值很差，GC不平衡，还有接头，PCR重复也很多，kmer值也很诡异，时间都耗在QC上面了，结果几个月下来，你一个流程都没搞明白，各种查资料，还是在原地打转。
做个转录组类似的找差异基因的项目呢，发现傻X实验设计者没有设计重复，一个case，一个control，搞毛线呀！即使有重复，组内相关性极差，还不如对照。而且各个样本量测序极其不一致，头大。比对效率低的惊人，让你怀疑人生，是不是参考基因组用错了？更有甚者，垃圾物种，连个参考都找不到，入什么门，晕在外面了。好不容易比对了，发现找不到全面的参考基因注释，又累个半死。好不容易挑选了一个合适的找差异基因的方法，发现就那么几个显著差异的，或者一万多个都显著，哭晕！
做个ChIP-seq类似的找peaks的项目呢，说好20M~50M数据量的，结果还分成批次，一次10M,一次7M，你分开比对分开call吧，一个样本是几千的peaks，另一个是几万的peaks，蒙圈。合并起来call吧，peaks的个数即便是合并也不是折中，只好去看MACS2的源代码，继续蒙圈。调整一下mfold吧，加上—lambda吧，peaks数量犹如过山车。在IGV也看的傻眼。有control的，发现control和case的peaks一模一样~~~~oh my god！杀了我吧！
做个外显子类似的找变异位点项目吧，发现有一些肿瘤研究居然仅仅是测肿瘤样品本身，没有血液或者正常组织样品作为对照。或者大量reads都是多比对情况，或者近一半的测序数据在线粒体基因？excuse me，我是外显子啊并不是单细胞转录组。

最好的入门方式

如果你也想开启自己的生物信息学数据处理生涯，但是自学起来困难重重，还等什么呢，赶快行动起来吧！参加我们生信技能树官方举办的学习班：

数据挖掘学习班第8期（线上直播3周，马拉松式陪伴，带你入门），原价4800的数据挖掘全套课程，疫情期间半价即可抢购。
生信爆款入门-第10期（线上直播4周，马拉松式陪伴，带你入门），原价9600的生信入门全套课程，疫情期间3.3折即可抢购。
生信技能树的粉丝都知道我们有一个全国巡讲的良心学习班，口碑爆棚，生物信息学入门省心省时省力！先看看大家的反馈吧：
数据挖掘第一期学习反馈
数据挖掘课程能带给你什么收获
站在巨人的肩膀上看风景
欢迎加入生信技能树小圈子
“生信入门过半“感想
为什么选择生信技能树生信入门全球听（一个月马拉松式授课）
花了那么多时间兜兜转转，我终于找对了门
我一路风尘仆仆赶来，还好没和你擦肩

一	二	三	四	五	六	日
« 九
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

不要拿一套垃圾数据入门

垃圾数据对初学者的伤害真的很可怕！

更多踩坑经验欢迎分享

最好的入门方式