这两天在筹备给中科院上海生化细胞所曾安研究组招聘生物信息学相关人才,就跟曾老师多聊了几句(画外音,很多人也喊我曾老师,感觉两个曾老师聊天有点诡异),尤其是他2018年cell的单细胞转录组文章,关于涡虫(planarian),我看到了同一时间段,在science居然也有两个研究涡虫(planarian)的单细胞转录组文章,有点意思。
但是最近被困在中国大陆,服务CNS杂志主页或者PubMed实在是有点困难,合理的猜测,曾安老师肯定关注了这3个研究涡虫(planarian)单细胞转录组的研究,就寻求他的帮助,要来了文献PDF。
我看到比对工具选择的是bowtie2
文章里面描述如下:
很明显,这不是我们推荐的单细胞转录组数据上游处理流程,我们的教程目录如下:
- 上游分析流程
- 课题多少个样品,测序数据量如何
- 过滤不合格细胞和基因(数据质控很重要)
- 过滤线粒体核糖体基因
- 去除细胞效应和基因效应
通常是使用star或者hisat2进行比对,同时我留意到涡虫单细胞转录组测序数据,其实研究者比对的是参考转录组,所以使用bowtie2即可,因为并没有参考基因组上面那样的真核生物基因结构,没有内含子需要跨越比对。所以跟曾老师确认了一下, 涡虫的参考基因组质量不好 - 涡虫现在基因组还没有拼接起来,现在还是contig,所以测序还是用的RNA-seq的转录本进行比对
- https://www.nature.com/articles/nature25473 基因组很奇特,AT含量高,多重复序列
我看了看那两个研究涡虫(planarian)单细胞转录组的science文章,也是选择 S. mediterranea dd_Smed_v6 transcriptome ,因为我不做涡虫研究,所以没办法介绍这个跟曾老师的Schmidtea mediterranea transcriptome smed_20140614 的区别。
曾老师的涡虫单细胞转录组测序数据在:GSE107875, GSE107874, and GSE107873.其实组装一个高质量参考基因组费用比单细胞便宜
单细胞目前仍然是10x主流,一个样本3万左右,目前想发CNS,通常是20以上样品,也是小100万啦。
但是组装参考基因组呢,我询问了华农的朋友,他作为一作刚刚在NC上面发表了胡椒基因组,他们的paper上面有这样的一个图:
主要是数据形式多,分析起来麻烦,不过一般来说在公司测序,公司肯定帮忙分析的。我又找了这方面公司的学生问了一下价格,大约10万到50万,如果参考基因组是800M的话,当然了,如果重复序列太多,就另做考虑。
差点忘记了正事,我们要给中科院上海生化细胞所曾安研究组招聘生物信息学相关人才,大家关注生信技能树,20分钟后的推文就是,传送门见:【点我】文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
- 全国巡讲全球听(买一得五) ,你的生物信息学入门课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路