Smart-seq2和10x这两个单细胞技术是现在初学者进入单细胞领域最需要掌握的,它们代表着单细胞的两个全然不同的发展策略。 Continue reading
如何让你的kegg注释结果图分门别类
KEGG数据库是一个综合性的生物信息数据库,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。它整合了基因组、化学和系统功能信息,旨在从分子水平上理解生物系统的高级功能和实用程序,特别是细胞、生物体和生态系统的功能。
KEGG数据库的分类情况相当广泛,它将信息分为三大类:系统信息、基因组信息和化学信息。进一步细分为16个主要的数据库。这些数据库包括: Continue reading
如何排除双细胞
前些天在我们生信技能树视频号直播一个文章的单细胞转录组数据(GSE208706)处理,文章是:《Amphiregulin from regulatory T cells promotes liver fibrosis and insulin resistance in non-alcoholic steatohepatitis》,因为我习惯了最开始采用比较低的分辨率的分群结果,如下所示的看分辨率是0.1的时候,可以看到9个亚群,它非常的狭长,而且呢,上面的有上皮细胞和成纤维两种截然不同的细胞亚群的基因高表达,很容易仍然联想到双细胞啦: Continue reading
如何更好的显示单细胞亚群命名的层级结构呢
通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是: Continue reading
如果应聘时碰到了不招没有工作经验的这个理由
无论是公司或者高校单位,其实都喜欢有工作经验的小伙伴,主要是出于对快速、高效招聘以及减少新员工培养成本的考虑。因为他们有以下的优点: Continue reading
如果你定位到了个不纯粹的单细胞亚群
看到了《单细胞天地》公众号分享了一个中山大学孙逸仙纪念医院的新鲜出炉的单细胞文章:PDGFRα+ITGA11+成纤维细胞通过 ITGA11-SELE 相互作用促进早期癌症的淋巴血管侵袭和淋巴转移,是13个scRNA样本,包括4个癌旁,6个淋巴血管侵犯(LVI)positive,3个LVI negative。对应的数据集是:GSE222315
文章主要是关注点是淋巴管血管侵犯(Lymphovascular Invasion, LVI) 以及 肿瘤相关的成纤维细胞: Continue reading
如果你的单细胞表达量矩阵并不是传统基因名字为单位
最近学员提问了一个有意思的数据集,他使用我们授课的示例代码发现跑降维聚类分群是没有问题,但是在后面的特异性基因的可视化的时候就全军覆没了。
我让学员发来一下对应的gse数据集,然后去下载这个这个文件,自己读取看了看;
counts <- data.table::fread('GSE190482_UMIsMatrix.txt.gz',data.table = F)
counts[1:4,1:4]
> counts[1:4,1:4]
V1 AAACCCAAGGTCGAGT-1_KO_B0310 AAACGAAAGGACACTG-1_WT_B0302
1 ENSMUSG00000051951 0 0
2 ENSMUSG00000089699 0 0
3 ENSMUSG00000102331 0 0
4 ENSMUSG00000102343 0 0
发现是因为里面的基因名字问题, 目前人类基因的命名体系主要包括 Ensembl、Gene Symbol 和 RefSeq。这些体系都是用于标识和命名基因的,是可以互相转换的 :
- Ensembl: Ensembl 是一个综合性基因组数据库和基因注释系统,提供了基因组序列的注释信息,包括基因位置、结构、功能等。Ensembl 使用类似于 ENSG00000139618 的 ID 标识基因,其中 “ENSG” 表示 Ensembl Gene,后面的数字为特定基因的唯一标识符。Ensembl 还提供了其他类型的 ID,如转录本 ID(ENST)、蛋白质 ID(ENSP)等。
- Gene Symbol: Gene Symbol 是一种更为常见的基因命名体系,使用了类似于 “TP53”(编码 p53 蛋白的基因)的简短字母数字组合来表示基因。Gene Symbol 是根据基因的功能、研究历史等因素确定的,易于记忆和使用。许多基因都有常用的 Gene Symbol,例如 “BRCA1”、”EGFR”、”MYC” 等。
- RefSeq: RefSeq 是由美国国家生物技术信息中心(NCBI)维护的参考序列数据库,提供了一系列标准化的生物分子序列记录,包括基因、转录本、蛋白质等。RefSeq 基因通常使用类似于 “NM_000546.6” 的格式,其中 “NM” 表示 mRNA 的 RefSeq ID,后面的数字是该基因的特定版本,”.6” 表示修订版本。
既然是需要转换,所以我使用AnnoProbe包进行这个步骤,然后我测试了一下,转换的成功率还很高的:
> ids=annoGene(ensID,'ENSEMBL','mouse')
Warning message:
In annoGene(ensID, "ENSEMBL", "mouse") :
0.27% of input IDs are fail to annotate...
> head(ids)
SYMBOL biotypes ENSEMBL chr start end
3 Xkr4 protein_coding ENSMUSG00000051951 chr1 3205901 3671498
8 Gm1992 antisense ENSMUSG00000089699 chr1 3466587 3513553
12 Gm19938 sense_intronic ENSMUSG00000102331 chr1 3647309 3658904
16 Gm37381 lincRNA ENSMUSG00000102343 chr1 3905739 3986215
17 Rp1 protein_coding ENSMUSG00000025900 chr1 3999557 4409241
20 Sox17 protein_coding ENSMUSG00000025902 chr1 4490931 4497354
最后的完整的代码如下所示:
counts <- data.table::fread('GSE190482_UMIsMatrix.txt.gz',data.table = F)
counts[1:4,1:4]
ensID = counts$V1
library(AnnoProbe)
ids=annoGene(ensID,'ENSEMBL','mouse')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENSEMBL),]
pos = match(ids$ENSEMBL,counts$V1)
counts=counts[pos,]
rownames(counts)=ids$SYMBOL
counts=counts[,-1]
sce.all <- CreateSeuratObject(counts = counts,
# project = "Humanized vasculitis mice",
min.cells = 3)
sce.all
有了这个seurat的对象,后面就是我们常规的!代码在:(链接: https://pan.baidu.com/s/1pKEnPmWXi-pTab0WZUWzgg?pwd=a7s1) 相信大家很容易跟着去复现一次!
值得一提的是这个GSE190482数据集关联的文章是Kaymak T, et al. Gut 2023;标题是 :《IL-20 subfamily cytokines impair the oesophageal epithelial barrier by diminishing filaggrin in eosinophilic oesophagitis》,但是文章正文里面根本就没有出现过一个单细胞图表,仅仅是在附件出现了一个Supplemental Figure 4. 的子图:(J) Normalised expression levels of Il20rα and Il20rβ in annotated cell types from the scRNA-seq dataset.
缺一个ffpe空间切片的探针文件导致spaceranger定量失败
前面我们演示了:10x技术空间单细胞上游定量案例分享(E-MTAB-12043),但是spaceranger定量失败。幸运的是很多懂行的小伙伴留言指出来了问题所在, 就是缺一个ffpe空间切片的探针文件。探针文件对于spaceranger的定量过程至关重要,因为spaceranger需要知道哪些探针与哪些转录本相关联,以便对空间位置上的RNA进行定量。 Continue reading
取单细胞亚群子集细分的时候一定会出现干扰亚群(所以不要惊慌)
前面我们分享了一个小技巧:如何整合多个单细胞数据集,是两个单细胞对象的merge操作,其实相反的就可以在一个对象里面进行切割,比如我们降维聚类分群就有各种单细胞亚群,通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是: Continue reading
敲减过表达前后转录组差异最好是都做一下
转录组测序(RNA-Seq)是一种高通量测序技术,可以在全基因组水平上定量分析细胞中所有mRNA的表达水平。通过比较基因过表达或敲减前后的转录组数据,研究人员可以获得关于基因如何调控细胞过程的详细信息。这种方法可以揭示基因表达的变化,发现新的生物学标记,以及理解基因表达调控的复杂性。在生物学和医学研究中,对特定基因进行过表达(过表达,即让基因表达水平高于正常生理状态)或敲减(降低基因表达水平,包括完全敲除或部分抑制)是一种常用的功能性分析方法。通过这些技术,研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。以下是进行这类实验的几个主要原因: Continue reading
强行找差异越来越成为了主流
我在生信技能树的早期教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图: Continue reading
配置r语言的环境变量文件
镜像本来是一个备胎,防止官方网站宕机,或者分流。但是,在中国大陆,R编程语言下载和安装r包镜像地址反而是应该是大家的首选哦。
有些教程会让大家把R编程语言下载和安装r包的镜像地址永久性固定,对我来说用处不大,因为感觉不同地区网络差异太大了,我在学校使用澳门网络,在办公室使用电信和联通,在家里使用移动,出差在路上使用自己的手机WiFi热点,它们对GitHub或者cran的支持情况完全不一样! Continue reading
批量下载geo上面的单细胞表达量矩阵
在 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE164522 看到了这个单细胞数据集附带的表达量矩阵比较大,而且文件比较多,所以想挂在后台,需要理解geo页面的每个gse数据集的主页的URL的规律。
其中,GSEXXXXXX
是该数据集的 accession number,是一个唯一标识符,用于在 GEO 数据库中检索该数据集的信息。可以通过构建类似这样的 URL,将 accession number 替换为任意感兴趣的 GSE 数据集的 accession number,以访问该数据集的主页。然后,就可以从主页中获取数据集的相关信息,包括表达量矩阵文件的下载链接等。 Continue reading
跑一个肝癌的单细胞转录组10x数据定量流程
前面的教程里面 能从源头解决数据分析的瑕疵吗 ,我们重现了普通单细胞转录组数据分析的从fastq文件开始的走cellranger的定量流程。接下来,继续,应粉丝要求,跑一个肝癌的单细胞转录组10x数据定量流程!
在 https://www.ebi.ac.uk/ena/browser/view/PRJNA793914 可以看到这个项目详情,而且前些天我们演示了如何下载这个项目的fastq格式的测序数据原始文件,详见:aspera的高速下载确实很快吗。但是从网络下载的单细胞转录组数据文件的样品名字别抹掉了,变成了顺序编号的id,而且呢,文件名字并不符合规则: Continue reading
你相信癌症细胞系结果还是肿瘤病人数据
看到了一个在《Journal of Thoracic Oncology》期刊的研究,文章标题:《EGFR Oncogenic Mutations in NSCLC Impair Macrophage Phagocytosis and Mediate Innate Immune Evasion Through Upregulation of CD47》,研究者们将两种最常见的突变类型EGFR19del和EGFRL858R,分别转进三种不同的癌细胞系A549、H1299和Beas-2B(前两个是肺腺癌细胞系,第三个是正常的人肺上皮细胞系),发现引入突变型EGFR后,这些细胞系在蛋白和mRNA水平上都表现出CD47的显著上调。(一般来说,肿瘤细胞系都是纯纯的恶性的上皮细胞 )
而且还经过了一些肿瘤病人的转录组队列数据集同样的EGFR突变与否的分组后差异分析,也是有CD47作为多个数据集差异结果的交集,证据链非常solid: Continue reading
你离在science发表文章还差4个单细胞数据项目
有粉丝来信咨询了一个Science . 2023 July的文章:《Recruited macrophages elicit atrial fibrillation》的一个数据分析细节,让我注意到了这个文章蛮有意思,正文里面就4张图,而且恰好对应它的4个单细胞数据项目,都放在GSE224959数据集里面,让我们一个个来看看。 Continue reading
拟时序的正确姿势(拟时序一本通02)
前面我们在 为什么做拟时序 提到了其实可以把拟时序分析简化成为了主要是为了展示差异细节,比如CD14和CD16的两种单核细胞的差异细节,或者说说CD56和CD16这两种NK细胞的差异细节。
也就是说,我们做拟时序之前通常是要细分亚群到足够深入,需要确定被做拟时序分析的对象是有比较大生物学变化的可能性。但是也有很多文章在使用拟时序分析的时候其实忽略这个前提,就显得很“可笑”,接下来我们就用3个案例来说明一下拟时序的正确姿势,错误示范,还有创新型的应用场景。 Continue reading
拟时序的多种算法大比拼
前面我们在 为什么做拟时序 提到了其实可以把拟时序分析简化成为了主要是为了展示差异细节,然后在 拟时序的正确姿势 我们3个案例来说明一下拟时序的正确姿势,错误示范,还有创新型的应用场景。
而且这些案例文献都不约而同的使用了monocle2这个软件,但是并不意味着它是金标准,也不意味着非monocle2不可。这个纯粹就是生物信息学领域的“马太效应”,大家都用monocle2做拟时序,所以后来者就简单的追随即可,而且绝大部分人其实并不关心算法细节,仅仅是为了做拟时序而做,那么就无所谓选择哪个软件了。实际上,做拟时序确实是有很多软件和算法的选择,我们可以来看看两个经典的综述,借此机会系统性梳理一下这方面背景知识。 Continue reading
难道铁死亡数据库记录的基因都是人类未知基因吗
最近看到了2023的一个数据库挖掘文章《Identification of ferroptosis-related genes in the progress of NASH》,里面有一个韦恩图展现了作者自己的转录组定量流程拿到的表达量矩阵的全部基因去跟铁死亡数据库记录的基因做交集,但是居然交集很少,如下所示:
可以看到,铁死亡数据库记录的基因有接近40%都不在人类已经基因里面,非常的诡异。 Continue reading
男性和女性的乳腺癌患者肿瘤细胞表达量差异基因不是在性染色体吗
看到了2023发表在NC杂志的男性乳腺癌患者的单细胞转录组图谱文章,标题是:《Single-cell transcriptome analysis indicates fatty acid metabolism-mediated metastasis and immunosuppression in male breast cancer》
其中附件有一张图是男性和女性的乳腺癌患者肿瘤细胞表达量差异基因的热图,如下所示: Continue reading