18

特定mRNA基因的相关性lncRNA计算

这个策略目前应用蛮广泛的, 比如文章《A Novel Inflammatory lncRNAs Prognostic Signature for Predicting the Prognosis of Low-Grade Glioma Patients》就是提取TCGA和CGGA共有的炎症基因mRNA和lncRNA的表达数据后,采用Pearson法分析lncRNA与LGGs炎症相关基因的相关性,相关系数为| r| > 0.7的lncRNA视为炎症相关lncRNA。当然了,也可以提取免疫相关mRNA基因,自噬的,细胞焦亡的,缺氧的。 Continue reading

18

我以为我画错了

 

最近安排团队一起学习肿瘤外显子流程,处理的数据来源于2017年CELL杂志的文章《Tumor and Microenvironment Evolution during Immunotherapy with Nivolumab》,跑完上游流程拿到了maf格式的肿瘤特异性的somatic突变位点后,第一张图就应该是突变全景图,所以有如下代码: Continue reading

18

现代生物学所需要的现代统计学

看到了一本有意思的书籍:《现代生物学所需要的现代统计学》,名字是我自己翻译的。

主要是因为太多小伙伴在咱们《生信技能树》后台咨询过想不错生物学知识和统计学知识,恰好这个《Modern Statistics for Modern Biology》把二者涵盖了,在线阅读链接:https://www.huber.embl.de/msmb/index.html Continue reading

18

什么,你需要1T内存?

最近接了一个61个10x的单细胞转录组样品项目,使用以前的流程,自动进行质量控制,降维聚类分群,本来应该是分分钟的事情,但是在一个步骤居然卡死了,我看了的这个函数,doubletFinder_v3 ,是去除单细胞转录组里面的双细胞作用,报错如下所示: Continue reading

18

什么,第17届生物信息学研究与应用国际研讨会?

前些天推荐了第20届国际生物信息学会议(InCoB 2021)将于11月6日至8日在中国云南省昆明市举行给粉丝,见:什么,第20届国际生物信息学大会?,今天又在朋友圈看到了第17届生物信息学研究与应用国际研讨会。我一直以为自己从事生物信息学行业很久了,也算是老兵一个,现在看来,我就是一个弟弟! Continue reading

18

什么,GitHub网站的文件你无法读取

假如你使用如下所示的代码,进行GitHub网站的文件读取:

readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-28/penguins.csv')<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">

会有如下所示的报错:

Error in open.connection(con, "rb") : 
 Failed to connect to raw.githubusercontent.com port 443: Connection refused

这个时候很多R语言小白会下意识的以为是自己的R语言代码有问题,其实如果你仔细 看报错,就应该是明白网络有问题,因为中国大陆绝大部分地区访问GitHub其实是很困难的。

首先,你需要对这个链接有一个基础认识:

rfordatascience 用户名
tidytuesday 仓库名
master 分支名
data/2020/2020-07-28/penguins.csv 文件名及其路径

你之所以无法访问,就是因为 这个 https://raw.githubusercontent.com/ 网页前缀并不是很适合你。你可以试试看cdn加速,只需要进行如下所示的替换:

https://cdn.jsdelivr.net/gh/rfordatascience/tidytuesday@master/data/2020/2020-07-28/penguins.csv

可以复制粘贴这个 url 到你的浏览器,下载这个csv文件就很容易啦,当然,这个时候你的R语言读取它也不是问题。

那么,聪明如你,赶快试试看 https://raw.githubusercontent.com/z3tt/TidyTuesday/master/R/2020_31_PalmerPenguins.Rmd 这个教程里面的 散点图箱线图小提琴图联合展示

image-20210626232730026

再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理

把R的知识点路线图搞定,如下:

  • 了解常量和变量概念
  • 加减乘除等运算(计算器)
  • 多种数据类型(数值,字符,逻辑,因子)
  • 多种数据结构(向量,矩阵,数组,数据框,列表)
  • 文件读取和写出
  • 简单统计可视化
  • 无限量函数学习