昨天在某生物信息学交流微信群,看到有朋友宣传了免疫学大牛迟洪波教授实验室招生信工程师的信息,链接是:https://careers-stjude.icims.com/jobs/5863/bioinformatics-analyst-ii/job
粗看一下,要求确实不低:
但是都是合理的,也就意味着,走上了生信工程师这条路,学习基本上就等于永无止境了。
生信流程
As a bioinformatics analyst, you will develop and maintain standard analytical pipelines, and conduct analyses on various large-scale datasets including, but not limited to, Microarray, RNA-Seq, ATAC-Seq, Chip-Seq, and single cell RNA-Seq.
这个要求很合理啊,现在是多组学时代,其实这些技术流程的视频教程好几年前我就全部免费共享在b站,如果你没有看,说明你可能并不值得培养,加入人家团队也很勉强。而且我同步分享了视频配套讲义和教辅材料;
- 学徒第1月,基础知识介绍掌握:文档链接:https://mubu.com/doc/38tEycfrQg 密码:vl3q
- 学徒第2月,RNA-seq数据分析实战训练:文档链接:https://mubu.com/doc/38y7pmgzLg 密码:p6fo
- 学徒第3月,WES数据分析实战训练:文档链接:https://mubu.com/doc/1iDucLlG5g 密码:7uch
- 学徒第4月,ChIP-seq数据分析实战训练:文档链接:https://mubu.com/doc/11taEb9ZYg 密码:wk29
也为每个组学视频课程,设置了练习题,不知道大家是否有学习呢?
基本上每个过来我这边学习一个月以上的学徒我都会让他们学习多种组学(围绕着中心法则),而且有了Linux基础和R语言能力后, 跟着我们的视频教程很容易就学会基础流程,毫无压力。
文献阅读
This work will require review of literature, evaluation, implementation and deployment of new software tools to fulfill the growing need of the lab.
搞科研不追踪领域内组学文献,怎么也说不过去吧!比如我坚持了3年的逆向收费读文献社群,也是强调了文献阅读的重要性!
- 逆向收费读文献社群(第二年通知)
- 肿瘤数据分析文献大放送
- 重复一篇Cell文献的PCA图
- 预测BRCA基因功能缺陷的HRDetect基因集(逆向收费读文献)
- 多组学探索卵巢癌耐药(逆向收费读文献2019-14)
- scTrio-seq(逆向收费读文献2019-15)
- 小鼠TNBC模型(逆向收费读文献2019-16)
- 肾癌单细胞(逆向收费读文献2019-17)
- 在果蝇探索PRC复合物(逆向收费读文献2019-18)
- 重复一篇WGCNA分析的文章(解读版)(逆向收费读文献2019-19)
- 小鼠模型跟人类癌症差太大了(逆向收费读文献2019-20)
- ChIP‐Atlas(逆向收费读文献2019-21)
- 使用一些机器学习的指标把HCC病人分成2类逆向收费读文献2019-21)
- 两篇肝癌类器官研究分享(逆向收费读文献2019-23)
希望2020可以挑选200篇出来整理成册,敬请期待哦!
公共数据库认知
This position is also responsible for daily analysis of in-house generated high-throughput datasets as well as datasets from public repositories such as GEO, ENCODE, TCGA etc.
自家的NGS测序数据固然重要,但是花销也不少,所以或多或少都会把自己数据的分析结果, 拿到公共数据库里面简单验证一下。
其中最火爆的当属TCGA数据库啦,关于TCGA数据下载,我挑选了部分,写了6个数据下载系列教程:
- TCGA的28篇教程- 使用R语言的cgdsr包获取TCGA数据(cBioPortal)
- TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
- TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据(FireBrowse portal)
- TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)
- TCGA的28篇教程-数据下载就到此为止吧
- TCGA的28篇教程-整理GDC下载的xml格式的临床资料
但是,建议你选择UCSC的xena数据库下载方式。如果你看视频,并不需要全盘接受,把握住重点。
我也写了部分常见的TCGA数据库用法:
- TCGA的28篇教程-免疫全景图
- TCGA的28篇教程-指定癌症查看感兴趣基因的表达量
- TCGA的28篇教程-对TCGA数据库的任意癌症中任意基因做生存分析
- TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
- TCGA的28篇教程-数据挖掘三板斧之ceRNA
- TCGA的28篇教程-所有癌症的突变全景图
- TCGA的28篇教程-早期泛癌研究
- TCGA的28篇教程-CNV全攻略
- TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手
测序知识背景
Specific responsibilities may involve NGS data quality control, integrative analyses, data visualization, and developing and evaluating new analytic tools. Excellent communication skills are essential.
万丈高楼平地起,千里之行始于足下,没有测序背景知识,就开始贸然做数据分析,风险太大。我们生信技能树论坛有好几个板块专门罗列了相关知识:
- 测序原理-数据格式-数据库,没有ngs就没有生物信息学
- 医疗相关应用,关系你的就业
- 生物学基础,主要是中心法则相关,分子生物学和细胞生物学
- 计算机基础 ,包括R,PYTHON, LINUX(SHELL)
- 统计学
- 可视化
当然,你也可以选择中国大学mooc进行基础知识补充:
- 生信技能树分享了:中国大学MOOC的生物信息学公开课之河南科技大学 ,
- 生信菜鸟团分享了:中国大学MOOC的生物信息学之华中农业大学
以及最热门的:中国大学MOOC的生物信息学之山东大学
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
- 全国巡讲全球听(买一得五) ,你的生物信息学入门课
- 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
- 2020学习主旋律,B站74小时免费教学视频为你领路