一个学徒跟着我做了七十多个转录组项目了,但是一直不能理解,凭什么这样的高通量筛选就能定位到具体的一两个基因。 Continue reading
Monthly Archives: 6月 2021
一个10X单细胞转录组可以有84个fastq文件
一个公共数据集可以被挖掘多少次
是我太年轻
学员群有咨询 Agilent-038314 CBC Homo sapiens lncRNA + mRNA microarray V2.0 这个表达量芯片的数据处理问题,当然了,主要是芯片的探针ID对应基因名字的问题。 链接是; Continue reading
一个免疫组库的实战
前面我带领大家通过IMGT数据库认知免疫组库,而且也一起[从IMGT数据库下载免疫组库相关fasta序列] Continue reading
一篇COVID-19患者支气管肺泡免疫细胞的单细胞亚群标记基因
最近在整理新冠疫情相关的单细胞文章,尤其是那些提供了数据集的而且还有配套GitHub代码的,超级棒的学习资料。 Continue reading
在R语言做并行计算的一些R包
今天在《共享服务器第27个群》看到有粉丝提问,说他跑cibersort的时候,R代码运行超级慢,需要一些加速技巧。 Continue reading
找不到ID就怀疑人家造假这样不好啊
看到我最近在报道一些生物信息学数据分析的吐槽点,见:
这是一个违背祖宗的决定
最近看到朋友圈转发的一大批“神医”做出违背祖宗的决定!
腾讯视频链接:https://v.qq.com/x/page/x3230xgj0x6.html
让我动容,敬佩之外我也想效仿一二,把我“祖传的”生物信息学技能公之于众,敞开门让大家学!我已经把这些技能录制成为了视频,并且在B站免费发布,已经组建了微信交流群的有下面这些:
- 免费视频课程《RNA-seq数据分析》
- 免费视频课程《WES数据分析》
- 免费视频课程《ChIP-seq数据分析》
- 免费视频课程《ATAC-seq数据分析》
- 免费视频课程《TCGA数据库分析实战》
- 免费视频课程《甲基化芯片数据分析》
- 免费视频课程《影像组学教学》
- 免费视频课程《LncRNA-seq数据》
- 免费视频课程《GEO数据挖掘》
- 肿瘤基因测序
当然了,如果你直接上手这些NGS组学数据分析实战有困难,说明你的Linux基础或者R语言不过关,也可以看c超级基础的内容:
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
把R的知识点路线图搞定,如下:
- 了解常量和变量概念
- 加减乘除等运算(计算器)
- 多种数据类型(数值,字符,逻辑,因子)
- 多种数据结构(向量,矩阵,数组,数据框,列表)
- 文件读取和写出
- 简单统计可视化
- 无限量函数学习
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习:
- 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
- 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。
- 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不再神秘!
- 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量。
- 第5阶段:任务提交及批处理,脚本编写解放你的双手。
- 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我。
文末友情推荐
肿瘤相关基因
ADAR1基因敲除前后肿瘤免疫微环境单细胞水平变化
今天要介绍的文章是:Loss of ADAR1 in tumours overcomes resistance to immune checkpoint blockade. Nature 2019 ,它的数据链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE110746 Continue reading
CAFs到底是两个亚群还是三个呢?
前面我们在推文 细胞亚群的特异性标记基因也许真的很难提到的Cancer-associated fibroblasts (CAFs)是比较难以精确的细分亚群。而且我们讨论了[T细胞可以简单分成4类] Continue reading
MeSH加Cytoscape你也可以绘制超高颜值富集图
最近实验室同学在组会上分享了一篇很有意思的文章,是于 January 2021, 发表在CELL杂志的文章《Spliceosome-targeted therapies trigger an antiviral immune response in triple-negative breast cancer》,链接是:https://doi.org/10.1016/j.cell.2020.12.031 Continue reading
RNA-seq和ATAC-seq数据整合分析怎么少的了相关性散点图
于2021年3月发表在CELL杂志的文章, 标题是:《In vivo CD8+ T cell CRISPR screening reveals control by Fli1 in infection and cancer》,链接是:https://doi.org/10.1016/j.cell.2021.02.019 Continue reading
sanger和broad研究所的单细胞教程哪个好
我在《生信菜鸟团》的一个推文 单细胞门户网站哪个更齐全,提到了生物信息学资源基本上都是欧洲的EBI的sanger研究所和美国的MIT的broad研究所创造和整理,单细胞领域也不例外。 Continue reading
seq-ImmuCC实战推断小鼠的肿瘤免疫微环境
前面我在《生信菜鸟团》公众号介绍了 小鼠的肿瘤免疫微环境推断可以用seq-ImmuCC,本来是想布置作业让大家下载https://www.ncbi.nlm.nih.gov/bioproject/PRJNA489661/ 的数据,自己走一波seq-ImmuCC实战。
但是发现这个并不是《生信技能树》公众号,所以我没办法布置练习题额,所以现在在《生信技能树》公众号再来一次哈!前面的例子:人人都能学会的单细胞聚类分群注释 ,第一次分群就非常漂亮!可以看到这个数据集GSE129516里面的6个样品都是有不同的免疫细胞亚群的,而且既然已经是有了降维聚类分群结果,就可以算出各个细胞亚群的比例啦!
我们的作业是,把GSE129516里面的6个样品的单细胞表达量矩阵简单的累加成为一个假的bulk表达量矩阵, 然后拿这个表达量矩阵去进行seq-ImmuCC实战,推断小鼠的肿瘤免疫微环境,就是各个免疫细胞比例。然后跟单细胞的真实免疫细胞各个亚群比例进行对比,测试一下seq-ImmuCC这个网页工具的表现情况!
关于seq-ImmuCC开发者
苏州系统医学研究所苏吴爱平教授和秦晓峰教授合作,发布了一个基于转录组测序(RNA-Seq)数据对小鼠组织中10种主要免疫细胞组分进行预测的计算模型(seq-ImmuCC),将为测序数据提供免疫细胞层面的解读视角。相关研究以“seq-ImmuCC: Cell-CentricView of Tissue Transcriptome Measuring Cellular Compositions of ImmuneMicroenvironment From Mouse RNA-Seq Data”为题,于2018年6月发表于国际期刊Frontiersin Immunology。
吴爱平教授的课题组已经成功开发了两个计算模型,从组织样本的芯片表达谱。
- 2017年,研究团队基于小鼠的DNA芯片表达谱数据,构建了一个能够对小鼠中的25种免疫细胞组分定量计算模型ImmuCC ,获得了领域内广泛关注和应用,相关研究发表于Scientific Reports (http://www.nature.com/articles/srep40508)。2018年,则通过从公共数据库中收集得到的小鼠正常免疫细胞RNA-Seq数据,构建得到了一个能够从小鼠组织的RNA-Seq数据出发,对组织中的10种免疫细胞组成比例进行定量的计算模型seq-ImmuCC。
- 2019年8月28日,《Bioinformatics》在线发表了苏州系统医学研究所吴爱平课题组的一项研究成果 “Tissue-specific deconvolution ofimmune cell composition by integrating bulk and single-cell transcriptomes ”,提出了一套整合组织样本转录组测序和单细胞测序数据的组织特异性免疫细胞组分预测策略(tissue-ImmuCC)。系统所博士研究生陈秭宜为该项工作的第一作者,吴爱平研究员为通讯作者。
阅读文档制作输入数据
在:http://218.4.234.74:3200/immune/manual
我看了看它的示例文件,很简单一个csv,如下所示:
提交数据等待网页工具返回结果
见:http://218.4.234.74:3200/immune/
也是很容易理解的结果,一个矩阵一个条形图,如下所示:
超级好用的网页工具
确实值得表扬,我测试了三次,体验都很好!仅仅是一个表达量矩阵的csv文件即可。
survival包内置了如此多的生存分析练习数据
我在生信技能树多次分享过生存分析的细节;
T细胞可以简单分成4类
最近在《生信技能树》公众号后台接到了求助,说他的肿瘤单细胞划分亚群的时候对T细胞的细分亚群把握不好,有超级简单的,也有非常复杂的,对于这样的求助,我也爱莫能助啊! Continue reading
TCGA各大癌症的somatic突变全景图鸟瞰
前面我们开通了明码标价专栏:
Y叔承包了富集分析结果的可视化
不管是 GO或者KEGG这样的常见数据库的注释结果,还是mesh,reactomePA, DOSE这样的略微小众的数据库资源,不管是超几何分布检验的富集还是GSEA的算法,都Y叔都有对应的可视化函数支持。
看肿瘤转移机制就比较N0和N3时期样品
众所周知,肿瘤的TNM分期是目前临床上比较常用的分期方式之一:
Continue reading