27

高速下载GEO数据库的单细胞表达量矩阵文件

一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。

但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 : Continue reading

27

复旦大学连发两个单细胞泛癌数据分析CNS正刊研究文章

前面我们分享了张泽民课题组的泛癌系列研究,一直可以发CNS级别杂志,让人膜拜:

  • 2021年2月发表在CELL的《A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells》
  • 2021年12月发表在science的《Pan-cancer single cell landscape of tumor-infiltrating T cells》
  • 2023年9月发表在CELL的《A pan-cancer single-cell panorama of human natural killer cells》
    然后到2024,轮到了复旦大学樊嘉和高强的课题组啦! Continue reading
27

泛癌层面的蛋白质组学资源

昨天介绍了:泛癌层面的表观调控单细胞多组学资源,是从11种癌症类型的201名患者中获取了225个样本做了snATAC-seq与snRNA-seq两个单细胞技术,数据量非常可观,对做癌症研究的小伙伴们来说意义重大。
今天再介绍一下 NCI-supported CPTAC 计划的新鲜出炉的泛癌层面的蛋白质组学资源文章;《Pan-cancer proteogenomics characterization of tumor immunity》,如下所示,可以看到是10种不同癌症的1,000多个肿瘤样品哦: Continue reading

27

泛癌层面的表观调控单细胞多组学资源

美国圣路易斯华盛顿大学的Li Ding团队是TCGA计划的重要发起者和参与者,而TCGA计划大家都很熟悉了,在2012附近就产出了几十篇CNS文章,而且在2018和2020又产出了一两百的CNS子刊级别的TCGA数据挖掘成果,非常的厉害!
最近(2023年底)他们又在《Nature》杂志上合作发表了题为 《Epigenetic regulation during cancer transitions across 11 tumour types》的文章,主要是使用了snATAC-seq与snRNA-seq两个单细胞技术,量化了十几个癌症的两百多个病人的样品。可以理解为单细胞层面的TCGA计划?或者说是TCGA计划的单细胞衍生? Continue reading

27

多元化展示基因列表和其对应的具体基因的关系

看到了一个生物信息学数据挖掘,标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,通过大量的数据分析拿到了11个FRDEGs基因列表,然后去对这11个基因进行“屎上雕花”,它们分别是: (ALOX5, CCL5, FHL2, G0S2,IGKC,KRT19,LCN2,LTF,PRKCB,RRM2,TUBA1A) ,比如下面的go数据库的注释结果,就使用了4种展示策略 : Continue reading

27

多分组表达量矩阵的层次聚类和组合pca分析

在生信技能树公众号看到了练习题在:9个小鼠分成3组后取36个样品做转录组测序可以做多少组合的差异分析,需要读取这个表达量矩阵完成里面的层次聚类和组合pca分析。上游的定量过程是需要服务器的,这里省略,我们主要是演示一下多分组表达量矩阵的层次聚类和组合pca分析。 Continue reading

27

都是百万单细胞起步了吗

交流群有小伙伴提问不知道如何处理130万这个数量级的单细胞转录组数据,让我感觉很有意思,因为普通人是很难接触到这个数据量的单细胞项目,如果有这个实力那么理所当然知道如何处理不至于来微信交流群问。。。。

130万这个数量级的单细胞转录组数据

也就是说,普通人其实并没有这个能力也不需要面临这样的130万这个数量级的单细胞转录组数据的烦恼!我们拿这个HRA002184数据集举例: Continue reading

27

蛋白质组学数据处理必读综述

开始处理蛋白质组学数据之前,大家肯定是会好奇数据如何产生,它本质上也是具体的每个蛋白质在具体的每个样品的表达量检测而已。而且蛋白质组学技术肯定是不止质谱(Mass Spectrometry, MS),其它技术也会产生表达量矩阵,有了矩阵后的下游分析就大同小异了。所以我们推荐大家看两个综述来了解这个技术的前因后果哈。 Continue reading

27

单细胞亚群的关键基因背诵不下来肿么办

前面我们提议了 让我们来一起背诵5000个基因吧 ,从大家的留言互动可以看到这个主意确实是“毁誉参半”。虽然说不能完全抹杀掉通过背诵基因来串联起生物学背景知识点的好处,但确实是过于枯燥乏味且效率低下。

比如单细胞亚群每个都有各自的高表达量特异性的基因列表,我们实际上是会打包在代码里面给大家: Continue reading

27

纯粹的恶性肿瘤细胞也是可以harmony整合的

长期以来,我们就分享了:《 细胞亚群细分的时候仍然是要选择harmony等算法去除样品差异 》,也就是说目前的单细胞转录组数据分析环节因为通常都是多个样品正好,所以harmony整合是必不可少的, 尤其是第一层次降维聚类分群和后面的细分亚群。而且通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是: Continue reading

27

不同形式的基因排序方法会影响gsea富集分析结果

基因集富集分析(Gene Set Enrichment Analysis,简称GSEA)是一种用来确定一个预先定义的基因集是否在某种生物学状态下(比如疾病状态)表达水平有显著变化的方法。

这种方法不仅关注单个基因是否表达差异,而且关注一整组基因的表达模式,从而揭示背后的生物学过程或通路。它需要有下面的步骤: Continue reading