一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。
但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 : Continue reading
一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。
但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 : Continue reading
前两天在公众号推了一下我们持续了五年多的《明码标价》服务,列表见:
前面我们分享了张泽民课题组的泛癌系列研究,一直可以发CNS级别杂志,让人膜拜:
昨天介绍了:泛癌层面的表观调控单细胞多组学资源,是从11种癌症类型的201名患者中获取了225个样本做了snATAC-seq与snRNA-seq两个单细胞技术,数据量非常可观,对做癌症研究的小伙伴们来说意义重大。
今天再介绍一下 NCI-supported CPTAC 计划的新鲜出炉的泛癌层面的蛋白质组学资源文章;《Pan-cancer proteogenomics characterization of tumor immunity》,如下所示,可以看到是10种不同癌症的1,000多个肿瘤样品哦: Continue reading
美国圣路易斯华盛顿大学的Li Ding团队是TCGA计划的重要发起者和参与者,而TCGA计划大家都很熟悉了,在2012附近就产出了几十篇CNS文章,而且在2018和2020又产出了一两百的CNS子刊级别的TCGA数据挖掘成果,非常的厉害!
最近(2023年底)他们又在《Nature》杂志上合作发表了题为 《Epigenetic regulation during cancer transitions across 11 tumour types》的文章,主要是使用了snATAC-seq与snRNA-seq两个单细胞技术,量化了十几个癌症的两百多个病人的样品。可以理解为单细胞层面的TCGA计划?或者说是TCGA计划的单细胞衍生? Continue reading
黑色素瘤(Melanoma)是一种恶性肿瘤,起源于能产生黑色素的细胞, 主要是有下面的分类 : Continue reading
看到了一个生物信息学数据挖掘,标题是:《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》,通过大量的数据分析拿到了11个FRDEGs基因列表,然后去对这11个基因进行“屎上雕花”,它们分别是: (ALOX5, CCL5, FHL2, G0S2,IGKC,KRT19,LCN2,LTF,PRKCB,RRM2,TUBA1A) ,比如下面的go数据库的注释结果,就使用了4种展示策略 : Continue reading
在生信技能树公众号看到了练习题在:9个小鼠分成3组后取36个样品做转录组测序可以做多少组合的差异分析,需要读取这个表达量矩阵完成里面的层次聚类和组合pca分析。上游的定量过程是需要服务器的,这里省略,我们主要是演示一下多分组表达量矩阵的层次聚类和组合pca分析。 Continue reading
交流群有小伙伴提问不知道如何处理130万这个数量级的单细胞转录组数据,让我感觉很有意思,因为普通人是很难接触到这个数据量的单细胞项目,如果有这个实力那么理所当然知道如何处理不至于来微信交流群问。。。。
也就是说,普通人其实并没有这个能力也不需要面临这样的130万这个数量级的单细胞转录组数据的烦恼!我们拿这个HRA002184数据集举例: Continue reading
五年前,我们有一个蛋白质组学数据处理的实战微信交流群,详见:蛋白质组学习小组起飞啦! ,在群里我们整理和分享的是: Continue reading
开始处理蛋白质组学数据之前,大家肯定是会好奇数据如何产生,它本质上也是具体的每个蛋白质在具体的每个样品的表达量检测而已。而且蛋白质组学技术肯定是不止质谱(Mass Spectrometry, MS),其它技术也会产生表达量矩阵,有了矩阵后的下游分析就大同小异了。所以我们推荐大家看两个综述来了解这个技术的前因后果哈。 Continue reading
本笔记会被收录于《生信技能树》公众号的《单细胞2024》专辑,而且我们从2024开始的教程都是基于Seurat的V5版本啦,之前已经演示了如何读取不同格式的单细胞转录组数据文件,如下所示: Continue reading
通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是:
前面我们提议了 让我们来一起背诵5000个基因吧 ,从大家的留言互动可以看到这个主意确实是“毁誉参半”。虽然说不能完全抹杀掉通过背诵基因来串联起生物学背景知识点的好处,但确实是过于枯燥乏味且效率低下。
比如单细胞亚群每个都有各自的高表达量特异性的基因列表,我们实际上是会打包在代码里面给大家: Continue reading
长期以来,我们就分享了:《 细胞亚群细分的时候仍然是要选择harmony等算法去除样品差异 》,也就是说目前的单细胞转录组数据分析环节因为通常都是多个样品正好,所以harmony整合是必不可少的, 尤其是第一层次降维聚类分群和后面的细分亚群。而且通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是: Continue reading
之前在在单细胞天地教程:表达矩阵逆转为10X的标准输出3个文件,详细介绍过 10X技术的单细胞转录组的3个标准文件,虽然说绝大部分文献提供其数据的时候并不是标准的文件名字,但是3个文件的文件名字还是通常会遵循以下模式: Continue reading
基因集富集分析(Gene Set Enrichment Analysis,简称GSEA)是一种用来确定一个预先定义的基因集是否在某种生物学状态下(比如疾病状态)表达水平有显著变化的方法。
这种方法不仅关注单个基因是否表达差异,而且关注一整组基因的表达模式,从而揭示背后的生物学过程或通路。它需要有下面的步骤: Continue reading
前面我们分享了在单细胞转录组降维聚类分群的第一层次降维聚类分群后的,每个单细胞亚群细分的时候,是有 单细胞亚群的生物学命名的4个规则,如下所示 : Continue reading
文献里面提到了一个表达量矩阵数据集的两个可能的误差来源,首先是该队列样品收集就耗费了四年所以有批次效应,其次队列里面的性别失衡,这两个问题都是需要解决的。所以研究者们采用了ANOVA model 很严谨的去判别差异基因,方法学如下所示: Continue reading
最近在梳理类器官领域的单细胞研究,发现了2024的文章:《Single-cell transcriptome profiling of primary tumors and paired organoids of pancreatobiliary cancer》,数据集在:GSE214295 (PRJNA885258) Continue reading