27

# 生物人恭喜啦!2024拿下这个技术,马上就业

众所周知,生命科学领域的本科生或者双非研究生基本上不太可能在就业市场找到对口工作,要么去考公务员要么去做各种杂七杂八销售。有父辈资源的另说哈,毕竟你爸妈帮你“吃苦”了,你可以做点小本生意或者继承家业!

这一点,我们前些天转发的推文:学生物到底有什么出路?,讲解的很清楚啦,金字塔式的阶梯发展道路: Continue reading

27

上海市生物信息学会

在微信群看到了一个第三轮通知|2024年长三角第二届生物信息学学术大会,是4月的12到14日在上海衡山北郊宾馆举办的,然后主办单位是上海市生物信息学会,我第一次看到,所以就搜索了一下上海市生物信息学会。 Continue reading

27

如何整理好10x技术的单细胞转录组的表达量矩阵3文件

今天的单细胞天地公众号分享了:scanpy怎么分开读取GEO数据库的10X单细胞3个文件,使用Python的scanpy分别读取3个文件后,再组合起来。在R也是可以这样操作,但是会很麻烦。之前在在单细胞天地教程:表达矩阵逆转为10X的标准输出3个文件,详细介绍过 10X文件的3个标准文件。比如SRR7722939数据集里面,文件barcodes.tsvgenes.tsv,就是表达矩阵的行名和列名: Continue reading

27

如何让你的kegg注释结果图分门别类

KEGG数据库是一个综合性的生物信息数据库,由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。它整合了基因组、化学和系统功能信息,旨在从分子水平上理解生物系统的高级功能和实用程序,特别是细胞、生物体和生态系统的功能。

KEGG数据库的分类情况相当广泛,它将信息分为三大类:系统信息、基因组信息和化学信息。进一步细分为16个主要的数据库。这些数据库包括: Continue reading

27

如何排除双细胞

前些天在我们生信技能树视频号直播一个文章的单细胞转录组数据(GSE208706)处理,文章是:《Amphiregulin from regulatory T cells promotes liver fibrosis and insulin resistance in non-alcoholic steatohepatitis》,因为我习惯了最开始采用比较低的分辨率的分群结果,如下所示的看分辨率是0.1的时候,可以看到9个亚群,它非常的狭长,而且呢,上面的有上皮细胞和成纤维两种截然不同的细胞亚群的基因高表达,很容易仍然联想到双细胞啦: Continue reading

27

如果你定位到了个不纯粹的单细胞亚群

看到了《单细胞天地》公众号分享了一个中山大学孙逸仙纪念医院的新鲜出炉的单细胞文章:PDGFRα+ITGA11+成纤维细胞通过 ITGA11-SELE 相互作用促进早期癌症的淋巴血管侵袭和淋巴转移,是13个scRNA样本,包括4个癌旁,6个淋巴血管侵犯(LVI)positive,3个LVI negative。对应的数据集是:GSE222315
文章主要是关注点是淋巴管血管侵犯(Lymphovascular Invasion, LVI) 以及 肿瘤相关的成纤维细胞: Continue reading

27

如果你的单细胞表达量矩阵并不是传统基因名字为单位

最近学员提问了一个有意思的数据集,他使用我们授课的示例代码发现跑降维聚类分群是没有问题,但是在后面的特异性基因的可视化的时候就全军覆没了。

我让学员发来一下对应的gse数据集,然后去下载这个这个文件,自己读取看了看;

counts <- data.table::fread('GSE190482_UMIsMatrix.txt.gz',data.table = F)
counts[1:4,1:4]

> counts[1:4,1:4]
 V1 AAACCCAAGGTCGAGT-1_KO_B0310 AAACGAAAGGACACTG-1_WT_B0302
1 ENSMUSG00000051951 0 0
2 ENSMUSG00000089699 0 0
3 ENSMUSG00000102331 0 0
4 ENSMUSG00000102343 0 0

发现是因为里面的基因名字问题, 目前人类基因的命名体系主要包括 Ensembl、Gene Symbol 和 RefSeq。这些体系都是用于标识和命名基因的,是可以互相转换的 :

  1. Ensembl: Ensembl 是一个综合性基因组数据库和基因注释系统,提供了基因组序列的注释信息,包括基因位置、结构、功能等。Ensembl 使用类似于 ENSG00000139618 的 ID 标识基因,其中 “ENSG” 表示 Ensembl Gene,后面的数字为特定基因的唯一标识符。Ensembl 还提供了其他类型的 ID,如转录本 ID(ENST)、蛋白质 ID(ENSP)等。
  2. Gene Symbol: Gene Symbol 是一种更为常见的基因命名体系,使用了类似于 “TP53”(编码 p53 蛋白的基因)的简短字母数字组合来表示基因。Gene Symbol 是根据基因的功能、研究历史等因素确定的,易于记忆和使用。许多基因都有常用的 Gene Symbol,例如 “BRCA1”、”EGFR”、”MYC” 等。
  3. RefSeq: RefSeq 是由美国国家生物技术信息中心(NCBI)维护的参考序列数据库,提供了一系列标准化的生物分子序列记录,包括基因、转录本、蛋白质等。RefSeq 基因通常使用类似于 “NM_000546.6” 的格式,其中 “NM” 表示 mRNA 的 RefSeq ID,后面的数字是该基因的特定版本,”.6” 表示修订版本。

既然是需要转换,所以我使用AnnoProbe包进行这个步骤,然后我测试了一下,转换的成功率还很高的:

> ids=annoGene(ensID,'ENSEMBL','mouse')
Warning message:
In annoGene(ensID, "ENSEMBL", "mouse") :
 0.27% of input IDs are fail to annotate... 
> head(ids)
 SYMBOL biotypes ENSEMBL chr start end
3 Xkr4 protein_coding ENSMUSG00000051951 chr1 3205901 3671498
8 Gm1992 antisense ENSMUSG00000089699 chr1 3466587 3513553
12 Gm19938 sense_intronic ENSMUSG00000102331 chr1 3647309 3658904
16 Gm37381 lincRNA ENSMUSG00000102343 chr1 3905739 3986215
17 Rp1 protein_coding ENSMUSG00000025900 chr1 3999557 4409241
20 Sox17 protein_coding ENSMUSG00000025902 chr1 4490931 4497354

最后的完整的代码如下所示:

counts <- data.table::fread('GSE190482_UMIsMatrix.txt.gz',data.table = F)
counts[1:4,1:4]
ensID = counts$V1
library(AnnoProbe) 
ids=annoGene(ensID,'ENSEMBL','mouse')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENSEMBL),]
pos = match(ids$ENSEMBL,counts$V1)
counts=counts[pos,]
rownames(counts)=ids$SYMBOL
counts=counts[,-1]
sce.all <- CreateSeuratObject(counts = counts,
 # project = "Humanized vasculitis mice",
 min.cells = 3)
sce.all

有了这个seurat的对象,后面就是我们常规的!代码在:(链接: https://pan.baidu.com/s/1pKEnPmWXi-pTab0WZUWzgg?pwd=a7s1) 相信大家很容易跟着去复现一次!

值得一提的是这个GSE190482数据集关联的文章是Kaymak T, et al. Gut 2023;标题是 :《IL-20 subfamily cytokines impair the oesophageal epithelial barrier by diminishing filaggrin in eosinophilic oesophagitis》,但是文章正文里面根本就没有出现过一个单细胞图表,仅仅是在附件出现了一个Supplemental Figure 4. 的子图:(J) Normalised expression levels of Il20rα and Il20rβ in annotated cell types from the scRNA-seq dataset.

看了两个基因在不同单细胞亚群的表达量

27

缺一个ffpe空间切片的探针文件导致spaceranger定量失败

前面我们演示了:10x技术空间单细胞上游定量案例分享(E-MTAB-12043),但是spaceranger定量失败。幸运的是很多懂行的小伙伴留言指出来了问题所在, 就是缺一个ffpe空间切片的探针文件。探针文件对于spaceranger的定量过程至关重要,因为spaceranger需要知道哪些探针与哪些转录本相关联,以便对空间位置上的RNA进行定量。 Continue reading

27

取单细胞亚群子集细分的时候一定会出现干扰亚群(所以不要惊慌)

前面我们分享了一个小技巧:如何整合多个单细胞数据集,是两个单细胞对象的merge操作,其实相反的就可以在一个对象里面进行切割,比如我们降维聚类分群就有各种单细胞亚群,通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是: Continue reading

27

敲减过表达前后转录组差异最好是都做一下

转录组测序(RNA-Seq)是一种高通量测序技术,可以在全基因组水平上定量分析细胞中所有mRNA的表达水平。通过比较基因过表达或敲减前后的转录组数据,研究人员可以获得关于基因如何调控细胞过程的详细信息。这种方法可以揭示基因表达的变化,发现新的生物学标记,以及理解基因表达调控的复杂性。在生物学和医学研究中,对特定基因进行过表达(过表达,即让基因表达水平高于正常生理状态)或敲减(降低基因表达水平,包括完全敲除或部分抑制)是一种常用的功能性分析方法。通过这些技术,研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。以下是进行这类实验的几个主要原因: Continue reading

27

配置r语言的环境变量文件

镜像本来是一个备胎,防止官方网站宕机,或者分流。但是,在中国大陆,R编程语言下载和安装r包镜像地址反而是应该是大家的首选哦。

有些教程会让大家把R编程语言下载和安装r包的镜像地址永久性固定,对我来说用处不大,因为感觉不同地区网络差异太大了,我在学校使用澳门网络,在办公室使用电信和联通,在家里使用移动,出差在路上使用自己的手机WiFi热点,它们对GitHub或者cran的支持情况完全不一样! Continue reading

27

批量下载geo上面的单细胞表达量矩阵

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE164522 看到了这个单细胞数据集附带的表达量矩阵比较大,而且文件比较多,所以想挂在后台,需要理解geo页面的每个gse数据集的主页的URL的规律。

其中,GSEXXXXXX 是该数据集的 accession number,是一个唯一标识符,用于在 GEO 数据库中检索该数据集的信息。可以通过构建类似这样的 URL,将 accession number 替换为任意感兴趣的 GSE 数据集的 accession number,以访问该数据集的主页。然后,就可以从主页中获取数据集的相关信息,包括表达量矩阵文件的下载链接等。 Continue reading

27

跑一个肝癌的单细胞转录组10x数据定量流程

前面的教程里面 能从源头解决数据分析的瑕疵吗 ,我们重现了普通单细胞转录组数据分析的从fastq文件开始的走cellranger的定量流程。接下来,继续,应粉丝要求,跑一个肝癌的单细胞转录组10x数据定量流程!

https://www.ebi.ac.uk/ena/browser/view/PRJNA793914 可以看到这个项目详情,而且前些天我们演示了如何下载这个项目的fastq格式的测序数据原始文件,详见:aspera的高速下载确实很快吗。但是从网络下载的单细胞转录组数据文件的样品名字别抹掉了,变成了顺序编号的id,而且呢,文件名字并不符合规则: Continue reading

27

你相信癌症细胞系结果还是肿瘤病人数据

看到了一个在《Journal of Thoracic Oncology》期刊的研究,文章标题:《EGFR Oncogenic Mutations in NSCLC Impair Macrophage Phagocytosis and Mediate Innate Immune Evasion Through Upregulation of CD47》,研究者们将两种最常见的突变类型EGFR19del和EGFRL858R,分别转进三种不同的癌细胞系A549、H1299和Beas-2B(前两个是肺腺癌细胞系,第三个是正常的人肺上皮细胞系),发现引入突变型EGFR后,这些细胞系在蛋白和mRNA水平上都表现出CD47的显著上调。(一般来说,肿瘤细胞系都是纯纯的恶性的上皮细胞 )

而且还经过了一些肿瘤病人的转录组队列数据集同样的EGFR突变与否的分组后差异分析,也是有CD47作为多个数据集差异结果的交集,证据链非常solid: Continue reading