18

什么,你需要1T内存?

最近接了一个61个10x的单细胞转录组样品项目,使用以前的流程,自动进行质量控制,降维聚类分群,本来应该是分分钟的事情,但是在一个步骤居然卡死了,我看了的这个函数,doubletFinder_v3 ,是去除单细胞转录组里面的双细胞作用,报错如下所示: Continue reading

18

什么,第17届生物信息学研究与应用国际研讨会?

前些天推荐了第20届国际生物信息学会议(InCoB 2021)将于11月6日至8日在中国云南省昆明市举行给粉丝,见:什么,第20届国际生物信息学大会?,今天又在朋友圈看到了第17届生物信息学研究与应用国际研讨会。我一直以为自己从事生物信息学行业很久了,也算是老兵一个,现在看来,我就是一个弟弟! Continue reading

18

什么,GitHub网站的文件你无法读取

假如你使用如下所示的代码,进行GitHub网站的文件读取:

readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-28/penguins.csv')<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">

会有如下所示的报错:

Error in open.connection(con, "rb") : 
 Failed to connect to raw.githubusercontent.com port 443: Connection refused

这个时候很多R语言小白会下意识的以为是自己的R语言代码有问题,其实如果你仔细 看报错,就应该是明白网络有问题,因为中国大陆绝大部分地区访问GitHub其实是很困难的。

首先,你需要对这个链接有一个基础认识:

rfordatascience 用户名
tidytuesday 仓库名
master 分支名
data/2020/2020-07-28/penguins.csv 文件名及其路径

你之所以无法访问,就是因为 这个 https://raw.githubusercontent.com/ 网页前缀并不是很适合你。你可以试试看cdn加速,只需要进行如下所示的替换:

https://cdn.jsdelivr.net/gh/rfordatascience/tidytuesday@master/data/2020/2020-07-28/penguins.csv

可以复制粘贴这个 url 到你的浏览器,下载这个csv文件就很容易啦,当然,这个时候你的R语言读取它也不是问题。

那么,聪明如你,赶快试试看 https://raw.githubusercontent.com/z3tt/TidyTuesday/master/R/2020_31_PalmerPenguins.Rmd 这个教程里面的 散点图箱线图小提琴图联合展示

image-20210626232730026

再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理

把R的知识点路线图搞定,如下:

  • 了解常量和变量概念
  • 加减乘除等运算(计算器)
  • 多种数据类型(数值,字符,逻辑,因子)
  • 多种数据结构(向量,矩阵,数组,数据框,列表)
  • 文件读取和写出
  • 简单统计可视化
  • 无限量函数学习
18

什么,你的转录组测序数据样本量不够?

曾经(大约是2010附近)普通的bulk的转录组测序跟如今的单细胞转录组一样火爆,是个样品就去测序,都不会理会类似的实验设计是否有已经发表的文章。都妄想用经费堆,去摘低垂的果实,所以大量数据烂在手上,拖到后面就越来越难以发表,能捡到个普通杂志发表出去就谢天谢地了。 Continue reading