参加过我们《生信技能树》的各个知识整理和分享活动的单细胞应该是都知道,我们比较推崇一个叫做简书的平台,因为它可以书写markdown语法。 Continue reading
Monthly Archives: 9月 2021
特定mRNA基因的相关性lncRNA计算
这个策略目前应用蛮广泛的, 比如文章《A Novel Inflammatory lncRNAs Prognostic Signature for Predicting the Prognosis of Low-Grade Glioma Patients》就是提取TCGA和CGGA共有的炎症基因mRNA和lncRNA的表达数据后,采用Pearson法分析lncRNA与LGGs炎症相关基因的相关性,相关系数为| r| > 0.7的lncRNA视为炎症相关lncRNA。当然了,也可以提取免疫相关mRNA基因,自噬的,细胞焦亡的,缺氧的。 Continue reading
仅仅是改变了统计学显著性呢?还是说改变了其本性
前面我们分享过:学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢?,可以很容易对一个基因,根据表达量分组,然后进行生存分析,判断它是风险因子或者是保护因子,当然了前提是具有统计学显著性啦。 Continue reading
我以为我画错了
最近安排团队一起学习肿瘤外显子流程,处理的数据来源于2017年CELL杂志的文章《Tumor and Microenvironment Evolution during Immunotherapy with Nivolumab》,跑完上游流程拿到了maf格式的肿瘤特异性的somatic突变位点后,第一张图就应该是突变全景图,所以有如下代码: Continue reading
细胞亚群细分的时候仍然是要选择harmony等算法去除样品差异
我们做肿瘤研究的单细胞数据,一般来说会选择初步很粗狂的定义大的细胞亚群,比如我常用的 第一次分群是通用规则是: Continue reading
细分亚群后需要使用harmony去除样品差异
经过了大量的单细胞转录组数据分析基础讲解,相信大家对第一层次降维聚类分群都不陌生了。参考我们的《明码标价》专栏里面的单细胞内容 Continue reading
现代生物学所需要的现代统计学
看到了一本有意思的书籍:《现代生物学所需要的现代统计学》,名字是我自己翻译的。
主要是因为太多小伙伴在咱们《生信技能树》后台咨询过想不错生物学知识和统计学知识,恰好这个《Modern Statistics for Modern Biology》把二者涵盖了,在线阅读链接:https://www.huber.embl.de/msmb/index.html Continue reading
单细胞文献你不整理后面肯定甚至会忘记自己曾经读过
我们的《单细胞文献100》活动激起了大家对单细胞的兴趣, 马上交流群有朋友咨询B细胞的细分亚群,希望给出参考文献,我恰好在看新冠病毒相关单细胞数据分析文章, 就给出来了这个:《Single-cell landscape of immunological responses in patients with COVID-19》 Continue reading
单细胞数据分析(全部一折)
不知道有多少朋友还记得我们两年前(2019年底)的单细胞数据分析报价:[单细胞转录组数据分析大放价 (疫情期间不打烊)] Continue reading
全新细胞系模型的提出也需要ngs数据支持
很多《生信技能树》的粉丝虽然一直在关注我们,但是他们总觉得我们这样的数据处理很遥远,感觉自己可能一辈子都不会接触ngs组学,纯粹的动物实验分子实验操作。 Continue reading
如果仅仅是看单细胞亚群比例变化真的没有必要做10x
最近在系统性整理肿瘤研究领域的单细胞研究,看到了一个2019的文章《High-dimensional cytometric analysis of colorectal cancer reveals novel mediators of antitumour immunity》居然是35个病人,因为文章里面有10X的关键词,所以我蛮吃惊的。2018和2019是10X商业化早 Continue reading
如果你觉得相关性热图不好看
前面的教程:混合到同一个10X样品里面的多个细胞系如何注释,我们提到了可以使用细胞系的表达量矩阵去跟细胞亚群表达量矩阵进行相关性计算。 Continue reading
上下调基因各自独立进行GO数据库的3分类富集
火山图大家应该是也基本上都没有问题,下面的MA图其实跟火山图非常的类似,两者都是log2FC信息,不同的是火山图展现P值,而MA图展现的是表达量情况! Continue reading
什么,你需要1T内存?
最近接了一个61个10x的单细胞转录组样品项目,使用以前的流程,自动进行质量控制,降维聚类分群,本来应该是分分钟的事情,但是在一个步骤居然卡死了,我看了的这个函数,doubletFinder_v3 ,是去除单细胞转录组里面的双细胞作用,报错如下所示: Continue reading
什么,第17届生物信息学研究与应用国际研讨会?
前些天推荐了第20届国际生物信息学会议(InCoB 2021)将于11月6日至8日在中国云南省昆明市举行给粉丝,见:什么,第20届国际生物信息学大会?,今天又在朋友圈看到了第17届生物信息学研究与应用国际研讨会。我一直以为自己从事生物信息学行业很久了,也算是老兵一个,现在看来,我就是一个弟弟! Continue reading
什么?1.3万基因都是你的靶基因?
一般来说,我们进行数据库注释,基因数量在20到500之间,其实100个左右是比较理想的!比如使用Y叔的clusterProfiler进行gsea分析,就有 minGSSize = 10, 和 maxGSSize = 200, 的设置,全部代码如下所示: Continue reading
什么,第20届国际生物信息学大会?
没想到啊, 居然在中国昆明!
第20届国际生物信息学会议(InCoB 2021)将于11月6日至8日在中国云南省昆明市举行,由中国昆明市昆明理工大学科学院主办。 Continue reading
什么,基因只剩下了三分之一?
上周的《单细胞图表复现100篇》栏目,我们分享了2个NSCLC的文献,这周六我们应该是要分享4个ccRCC的文献,PPT已经制作完毕!感兴趣的可以推荐下面的会议,准时参加!(会议密码是: 1024 ) Continue reading
什么,GitHub网站的文件你无法读取
假如你使用如下所示的代码,进行GitHub网站的文件读取:
readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-28/penguins.csv')<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">
会有如下所示的报错:
Error in open.connection(con, "rb") :
Failed to connect to raw.githubusercontent.com port 443: Connection refused
这个时候很多R语言小白会下意识的以为是自己的R语言代码有问题,其实如果你仔细 看报错,就应该是明白网络有问题,因为中国大陆绝大部分地区访问GitHub其实是很困难的。
首先,你需要对这个链接有一个基础认识:
rfordatascience 用户名
tidytuesday 仓库名
master 分支名
data/2020/2020-07-28/penguins.csv 文件名及其路径
你之所以无法访问,就是因为 这个 https://raw.githubusercontent.com/ 网页前缀并不是很适合你。你可以试试看cdn加速,只需要进行如下所示的替换:
https://cdn.jsdelivr.net/gh/rfordatascience/tidytuesday@master/data/2020/2020-07-28/penguins.csv
可以复制粘贴这个 url 到你的浏览器,下载这个csv文件就很容易啦,当然,这个时候你的R语言读取它也不是问题。
那么,聪明如你,赶快试试看 https://raw.githubusercontent.com/z3tt/TidyTuesday/master/R/2020_31_PalmerPenguins.Rmd 这个教程里面的 散点图箱线图小提琴图联合展示
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
课程推荐-面向生命科学的深度学习
前面我们在生信技能树分享了:中国大学MOOC的生物信息学公开课之河南科技大学 ,然后在生信菜鸟团分享了:中国大学MOOC的生物信息学之华中农业大学。 Continue reading