背景介绍
坐标:湖北省会,对,就是那个全世界都在给她加油、现在仍然在喊加油的地方,上半年抗疫,下半年抗洪。 Continue reading
坐标:湖北省会,对,就是那个全世界都在给她加油、现在仍然在喊加油的地方,上半年抗疫,下半年抗洪。 Continue reading
如果大家学过我免费共享在B站上不同的数据分析视频课程,见:
最近有粉丝求助,说自己已经耗费十多天了还没有把一个NT数据库下载下来,不得已充值会员费希望可以加速,但是效果也很惨淡,如下图: Continue reading
有粉丝提问为什么我免费共享在B站那么多不同的数据分析视频课程,见:
以下是学员投稿,初稿发布在生信技能树公众号,见:
最近学员参考了教程: https://mp.weixin.qq.com/s/vO-3_FbjsvqfAwCsn3A7Cw 来安装ArchR,目前ArchR托管在GitHub上。
学员目标:从github上安装ArchR包,由于网速不佳,选择本地安装的方式。 Continue reading
生存分析是大数据时代,筛选目标基因的超级有效策略。各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。 Continue reading
肿瘤领域的数据挖掘文章真的是“烂大街”了,一个比较成熟的分析策略很容易迁移到TCGA数据库的全部其它各种癌症研究领域。哪怕是再稀有的肿瘤,甚至肿瘤的某个稀有亚型,都是做了几十篇文章,大家可以使用一些关键词组合很容易搜索到它们。 Continue reading
差异基因分析确实是人尽皆知了,不管是表达芯片还是RNA-seq测序拿到的表达矩阵,都可以走差异分析策略,哪怕是蛋白质组和代谢组拿到的矩阵,也是如此,其实图表没啥子区别。差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了: Continue reading
各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。 Continue reading
我这七年写了几万篇教程,制作了几百个小时的教学实战演练视频课程,都是免费分享在各大网站(B站,知乎,简书,博客,GitHub,微云),必然会出现部分教程过时,一些资料缺失(主要是链接失效)。而且很多平台都是生信技能树的各个志愿者帮忙打理,我不可能要求大家伙在辛辛苦苦帮我整理和发布资料的同时还提供答疑。比如这几天在登陆b站,就看到了这两年来积累的“铺天盖地的”留言和私信,我已经在:免费视频课程《RNA-seq数据分析》交流群组建通知 列出来了。 Continue reading
我这七年写了几万篇教程,制作了几百个小时的教学实战演练视频课程,都是免费分享在各大网站(B站,知乎,简书,博客,GitHub,微云),必然会出现部分教程过时,一些资料缺失(主要是链接失效)。而且很多平台都是生信技能树的各个志愿者帮忙打理,我不可能要求大家伙在辛辛苦苦帮我整理和发布资料的同时还提供答疑。比如这几天在登陆b站,就看到了这两年来积累的“铺天盖地的”留言和私信,我已经在:免费视频课程《RNA-seq数据分析》交流群组建通知 列出来了。 Continue reading
提到公共数据库挖掘,通常是GEO里面的表达芯片数据,这些年随着NGS的爆发,转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势,当然了,TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊,在GEO和TCGA都找不到合适的数据集,其实还有另外一个选项:ArrayExpress Continue reading
我看到今年(2020)3月发表在:BMC Bioinformatics 的文章:《RASflow: an RNA-Seq analysis workflow with Snakemake》,就是很简单的一个转录组流程分享,只不过是他愿意写出来英文SCI而且愿意花时间投稿。如果大家学过了我免费共享在B站的不同的数据分析视频课程,见: Continue reading
RobustRankAggreg包在各种数据挖掘文章里面亮相的频次之高,无需我多言,大家可以去查看一下引用它的文献,基本上都是GEO数据库挖掘文章: Continue reading
前面我们组建了:免费视频课程《RNA-seq数据分析》交流群 ,很多人马上学习了全套实战视频,并且实践了一个转录组项目流程,新手问的最多的问题是:为什么我给的RNA-seq表达矩阵代码需要的是counts格式输入,而且使用3个不同的R包做差异分析,这3个R包该分别如何设置阈值来进行统计学显著的差异表达基因筛选,以及多个R包数量有时候差异很大,该如何取舍。 Continue reading
临近高考,最近我们的生信考研考博交流群以及生信职业发展讨论群都掀起了关于人生规划的讨论,七嘴八舌,好不热闹。而且还留言了很多问题给思考问题的熊,希望他能安排一期博客节目来谈这个主题,我有幸参与了节目录制,虽然自己是摸鱼状态参与节目的,还是期待这一期节目能上线。 Continue reading
有粉丝邮件求助,给了我两个vcf文件,旧的vcf文件走的是标准的bwa+gatk流程,参考基因组是hg19,新的文件参考基因组是hg38,也是gatk标准流程。想要比较它们,首先得保证两个vcf文件的参考基因组一致,因为版本不一致,所以需要使用CrossMap等软件进行参考基因组版本转换,然后使用 SnpSift 软件的 Concordance 命令比较它们。 Continue reading
之前我们生信菜鸟团已经发布的:购买入门级服务器免费送Linux直播培训服务 ,提到了可以购置一款《1核2G服务器》标准品,既可以练习Linux命令,也可以打搭建一个博客:五分钟搞定你的个人博客,还可以做图床,或者隧道。 Continue reading
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
主流编程语言的变化趋势值得关注,其排行榜对我们学习和工作是一个参考,毕竟大家都不想选择一个被时代抛弃的编程语言。但各个语言都有它们各自适合的应用场景,所以也不必过于在意排名,毕竟编程语言的好坏在于如何去使用它。给编程语言进行排序的机构很多,其中每个月都会公布一次TIOBE比较权威。 Continue reading