八 27

高速下载GEO数据库的单细胞表达量矩阵文件

Posted on 2024年8月27日 by ulwvfje

一般来说，GEO数据库的文件是没有必要高速下载的，因为里面存放的都是表达量矩阵等，文件非常小，通过浏览器点击下载的方式就算是网络很慢，等等也会成功。

但是如果要下载成百上千个文件，最好是使用代码批量下载，而且现在单细胞技术的大行其道，使得表达量矩阵文件本身也会很巨大，比如：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ，可以看到如下所示9.3 Gb文件： Continue reading →

八 27

该不该一小时挣过万的数据分析费

Posted on 2024年8月27日 by ulwvfje

前两天在公众号推了一下我们持续了五年多的《明码标价》服务，列表见：

最低仅需800，就有一个生信工程师为你服务！ Continue reading →

八 27

复旦大学连发两个单细胞泛癌数据分析CNS正刊研究文章

Posted on 2024年8月27日 by ulwvfje

前面我们分享了张泽民课题组的泛癌系列研究，一直可以发CNS级别杂志，让人膜拜：

2021年2月发表在CELL的《A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells》
2021年12月发表在science的《Pan-cancer single cell landscape of tumor-infiltrating T cells》
2023年9月发表在CELL的《A pan-cancer single-cell panorama of human natural killer cells》
然后到2024，轮到了复旦大学樊嘉和高强的课题组啦！ Continue reading →

八 27

泛癌层面的蛋白质组学资源

Posted on 2024年8月27日 by ulwvfje

昨天介绍了：泛癌层面的表观调控单细胞多组学资源，是从11种癌症类型的201名患者中获取了225个样本做了snATAC-seq与snRNA-seq两个单细胞技术，数据量非常可观，对做癌症研究的小伙伴们来说意义重大。
今天再介绍一下 NCI-supported CPTAC 计划的新鲜出炉的泛癌层面的蛋白质组学资源文章；《Pan-cancer proteogenomics characterization of tumor immunity》，如下所示，可以看到是10种不同癌症的1,000多个肿瘤样品哦： Continue reading →

八 27

泛癌层面的表观调控单细胞多组学资源

Posted on 2024年8月27日 by ulwvfje

美国圣路易斯华盛顿大学的Li Ding团队是TCGA计划的重要发起者和参与者，而TCGA计划大家都很熟悉了，在2012附近就产出了几十篇CNS文章，而且在2018和2020又产出了一两百的CNS子刊级别的TCGA数据挖掘成果，非常的厉害！
最近（2023年底）他们又在《Nature》杂志上合作发表了题为《Epigenetic regulation during cancer transitions across 11 tumour types》的文章，主要是使用了snATAC-seq与snRNA-seq两个单细胞技术，量化了十几个癌症的两百多个病人的样品。可以理解为单细胞层面的TCGA计划？或者说是TCGA计划的单细胞衍生？ Continue reading →

八 27

多组学来量化原位和侵袭的肢端黑色素瘤差异

Posted on 2024年8月27日 by ulwvfje

黑色素瘤（Melanoma）是一种恶性肿瘤，起源于能产生黑色素的细胞，主要是有下面的分类： Continue reading →

八 27

多元化展示基因列表和其对应的具体基因的关系

Posted on 2024年8月27日 by ulwvfje

看到了一个生物信息学数据挖掘，标题是：《Novel ferroptosis gene biomarkers and immune infiltration profiles in diabetic kidney disease via bioinformatics》，通过大量的数据分析拿到了11个FRDEGs基因列表，然后去对这11个基因进行“屎上雕花”，它们分别是： (ALOX5, CCL5, FHL2, G0S2,IGKC,KRT19,LCN2,LTF,PRKCB,RRM2,TUBA1A) ，比如下面的go数据库的注释结果，就使用了4种展示策略： Continue reading →

八 27

多分组表达量矩阵的层次聚类和组合pca分析

Posted on 2024年8月27日 by ulwvfje

在生信技能树公众号看到了练习题在：9个小鼠分成3组后取36个样品做转录组测序可以做多少组合的差异分析，需要读取这个表达量矩阵完成里面的层次聚类和组合pca分析。上游的定量过程是需要服务器的，这里省略，我们主要是演示一下多分组表达量矩阵的层次聚类和组合pca分析。 Continue reading →

八 27

都是百万单细胞起步了吗

Posted on 2024年8月27日 by ulwvfje

交流群有小伙伴提问不知道如何处理130万这个数量级的单细胞转录组数据，让我感觉很有意思，因为普通人是很难接触到这个数据量的单细胞项目，如果有这个实力那么理所当然知道如何处理不至于来微信交流群问。。。。

130万这个数量级的单细胞转录组数据

也就是说，普通人其实并没有这个能力也不需要面临这样的130万这个数量级的单细胞转录组数据的烦恼！我们拿这个HRA002184数据集举例： Continue reading →

八 27

#蛋白质数据分析一本通

Posted on 2024年8月27日 by ulwvfje

五年前，我们有一个蛋白质组学数据处理的实战微信交流群，详见：蛋白质组学习小组起飞啦！，在群里我们整理和分享的是： Continue reading →

八 27

蛋白质组学数据处理必读综述

Posted on 2024年8月27日 by ulwvfje

开始处理蛋白质组学数据之前，大家肯定是会好奇数据如何产生，它本质上也是具体的每个蛋白质在具体的每个样品的表达量检测而已。而且蛋白质组学技术肯定是不止质谱（Mass Spectrometry, MS），其它技术也会产生表达量矩阵，有了矩阵后的下游分析就大同小异了。所以我们推荐大家看两个综述来了解这个技术的前因后果哈。 Continue reading →

八 27

单细胞转录组的3种常规数据分析思路

Posted on 2024年8月27日 by ulwvfje

本笔记会被收录于《生信技能树》公众号的《单细胞2024》专辑，而且我们从2024开始的教程都是基于Seurat的V5版本啦，之前已经演示了如何读取不同格式的单细胞转录组数据文件，如下所示： Continue reading →

八 27

单细胞亚群的生物学命名的4个规则

Posted on 2024年8月27日 by ulwvfje

通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是：

immune (CD45+,PTPRC),
epithelial/cancer (EpCAM+,EPCAM),
stromal (CD10+,MME,fibro or CD31+,PECAM1,endo) Continue reading →

八 27

单细胞亚群的关键基因背诵不下来肿么办

Posted on 2024年8月27日 by ulwvfje

前面我们提议了让我们来一起背诵5000个基因吧，从大家的留言互动可以看到这个主意确实是“毁誉参半”。虽然说不能完全抹杀掉通过背诵基因来串联起生物学背景知识点的好处，但确实是过于枯燥乏味且效率低下。

比如单细胞亚群每个都有各自的高表达量特异性的基因列表，我们实际上是会打包在代码里面给大家： Continue reading →

八 27

纯粹的恶性肿瘤细胞也是可以harmony整合的

Posted on 2024年8月27日 by ulwvfje

长期以来，我们就分享了：《细胞亚群细分的时候仍然是要选择harmony等算法去除样品差异》，也就是说目前的单细胞转录组数据分析环节因为通常都是多个样品正好，所以harmony整合是必不可少的，尤其是第一层次降维聚类分群和后面的细分亚群。而且通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是： Continue reading →

八 27

不走寻常路的单细胞表达量矩阵读取

Posted on 2024年8月27日 by ulwvfje

之前在在单细胞天地教程：表达矩阵逆转为10X的标准输出3个文件，详细介绍过 10X技术的单细胞转录组的3个标准文件，虽然说绝大部分文献提供其数据的时候并不是标准的文件名字，但是3个文件的文件名字还是通常会遵循以下模式： Continue reading →

八 27

不同形式的基因排序方法会影响gsea富集分析结果

Posted on 2024年8月27日 by ulwvfje

基因集富集分析（Gene Set Enrichment Analysis，简称GSEA）是一种用来确定一个预先定义的基因集是否在某种生物学状态下（比如疾病状态）表达水平有显著变化的方法。

这种方法不仅关注单个基因是否表达差异，而且关注一整组基因的表达模式，从而揭示背后的生物学过程或通路。它需要有下面的步骤： Continue reading →

八 27

为什么不同来源单细胞亚群都可以细分到同样的亚群？

Posted on 2024年8月27日 by ulwvfje

前面我们分享了在单细胞转录组降维聚类分群的第一层次降维聚类分群后的，每个单细胞亚群细分的时候，是有单细胞亚群的生物学命名的4个规则，如下所示： Continue reading →

八 27

不同差异分析方法拿到的上下调基因影响什么了？

Posted on 2024年8月27日 by ulwvfje

文献里面提到了一个表达量矩阵数据集的两个可能的误差来源，首先是该队列样品收集就耗费了四年所以有批次效应，其次队列里面的性别失衡，这两个问题都是需要解决的。所以研究者们采用了ANOVA model 很严谨的去判别差异基因，方法学如下所示： Continue reading →

八 27

不同癌症的类器官培养后的单细胞转录组数据差异大吗（胰腺癌和胆管癌）

Posted on 2024年8月27日 by ulwvfje

最近在梳理类器官领域的单细胞研究，发现了2024的文章：《Single-cell transcriptome profiling of primary tumors and paired organoids of pancreatobiliary cancer》，数据集在：GSE214295 (PRJNA885258) Continue reading →

Page 9 of 92« First ‹ Previous 6 7 8910 11 12 Next ›Last »

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Category Archives: 未分类

高速下载GEO数据库的单细胞表达量矩阵文件

该不该一小时挣过万的数据分析费

复旦大学连发两个单细胞泛癌数据分析CNS正刊研究文章

泛癌层面的蛋白质组学资源

泛癌层面的表观调控单细胞多组学资源

多组学来量化原位和侵袭的肢端黑色素瘤差异

多元化展示基因列表和其对应的具体基因的关系

多分组表达量矩阵的层次聚类和组合pca分析

都是百万单细胞起步了吗

#蛋白质数据分析一本通

蛋白质组学数据处理必读综述

单细胞转录组的3种常规数据分析思路

单细胞亚群的生物学命名的4个规则

单细胞亚群的关键基因背诵不下来肿么办

纯粹的恶性肿瘤细胞也是可以harmony整合的

不走寻常路的单细胞表达量矩阵读取

不同形式的基因排序方法会影响gsea富集分析结果

为什么不同来源单细胞亚群都可以细分到同样的亚群？

不同差异分析方法拿到的上下调基因影响什么了？

不同癌症的类器官培养后的单细胞转录组数据差异大吗（胰腺癌和胆管癌）

2025年4月
一	二	三	四	五	六	日
« 九
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30