马拉松授课的表达量芯片环节结束后,学员们都迫不及待的处理自己感兴趣的数据集了,其中一个小伙伴表示发现了一个稀奇的表达量芯片平台,是 GPL19833,[HG-U219] Affymetrix Human Genome U219 Array (ENSG Brainarray CDF Version 18.0.0),如下所示 :
Data table
ID ORF Description
ENSG00000000003_at ENSG00000000003 tetraspanin 6 [Source:HGNC Symbol;Acc:11858]
ENSG00000000005_at ENSG00000000005 tenomodulin [Source:HGNC Symbol;Acc:17757]
可以看到,它:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL19833 对应的就一个数据集:GSE66407 Gut biopsies from patients with Crohn’s Disease and Ulcerative Colitis and healthy controls
其实说明了它并不是一个独立的表达量芯片平台,就是 [HG-U219] Affymetrix Human Genome U219 Array 本身,它有很多变形,拿到了的表达量矩阵就是简简单单进行ID转换即可。
需要有数据库的基因的id基础认知
RefSeq、Entrez和Ensembl是生物信息学领域中三个重要的id体系,它们各自拥有独特的基因和蛋白质的标识符(ID)体系:
-
RefSeq IDs:
- RefSeq(Reference Sequences)是美国国立生物技术信息中心(NCBI)提供的一组非冗余、经过注释的序列数据库。
- RefSeq IDs通常以字母开头,后跟数字,例如:NM_000123.4(mRNA序列)或NP_000132.2(蛋白质序列)。
- 这些ID代表了基因的特定参考序列,可用于准确引用特定的基因或蛋白质。
-
Entrez IDs:
- Entrez是NCBI开发的一个综合性生物信息学数据库检索系统,它包括多个数据库,如基因(Genome)、蛋白质(Protein)、核酸序列(Nucleotide)等。
- Entrez Gene ID是用于唯一标识数据库中每个基因的数字ID,例如:100010(人类基因)。
- 除了Gene ID,Entrez系统还使用Protein ID来标识特定的蛋白质序列。
-
Ensembl IDs:
- Ensembl是一个开放的生物信息学项目,由欧洲生物信息学研究所(EBI)和威康信托桑格研究所(Wellcome Sanger Institute)共同维护。
- Ensembl使用一系列ID来标识基因、转录本和蛋白质。这些ID通常以字母前缀开头,后跟数字,例如:ENSG00000223972(基因)、ENST00000456328(转录本)、ENSP00000359063(蛋白质)。
- 前缀表示序列的类型,例如:ENSG代表基因,ENST代表转录本,ENSP代表蛋白质。
每个数据库的ID体系都有其特定的命名规则和结构,以确保每个基因、转录本或蛋白质都有一个唯一的标识符。这些ID在生物信息学分析、文献和数据库查询中广泛使用,以确保信息的准确传递和检索。
在实际使用中,研究者可能需要在不同的数据库之间转换ID,例如,将一个数据库中的基因ID转换为另一个数据库的ID。这可以通过使用各种在线工具和资源来实现,如NCBI的Entrez系统、Ensembl的BioMart工具,或者通过编程方式使用API进行转换。
很多id转换方式
上面的表达量矩阵的探针其实只需要去除那个 _at 的后缀,就是Ensembl数据库的ID了,然后就可以如下所示简单的转换:
library(AnnoProbe)
head(rownames(ensembl_matrix))
ids=annoGene(rownames(ensembl_matrix),'ENSEMBL','human')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENSEMBL),]
symbol_matrix= ensembl_matrix[match(ids$ENSEMBL,rownames(ensembl_matrix)),]
rownames(symbol_matrix) = ids$SYMBOL
假如你拿到了的是RefSeq或者Entrez的id体系的表达量矩阵,也是可以进行下面的转换啦:
library(AnnoProbe)
library(org.Hs.eg.db)
k<-AnnotationDbi::keys(org.Hs.eg.db,keytype = "ENTREZID")
e2s<-AnnotationDbi::select(org.Hs.eg.db,
keys= rownames(ENTREZID_matrix),
columns="SYMBOL",
keytype = "ENTREZID")
head(e2s)
ids = na.omit(e2s)
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENTREZID),]
head(ids)
symbol_matrix= ENTREZID_matrix[match(ids$ENTREZID,rownames(ENTREZID_matrix)),]
rownames(symbol_matrix) = ids$SYMBOL
symbol_matrix[1:4,1:4]
最后都是以基因的symbol矩阵做后面的分析,因为我们人类只能说是看基因的symbol来进行沟通和交流。
学徒作业
处理上面的GSE66407数据集, 是 Gut biopsies from patients with Crohn’s Disease and Ulcerative Colitis and healthy controls ,是应该是有三分组,然后就可以做两次差异分析,做Crohn’s Disease and Ulcerative Colitis分别去跟healthy controls的差异。看看这个差异跟https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE77013里面的 UC (n=8) and control (n=7) 的差异是否有一致性;
Crohn’s Disease(克罗恩病)和Ulcerative Colitis(溃疡性结肠炎)是两种主要的炎症性肠病(Inflammatory Bowel Disease, IBD)。它们都会引起消化道的长期炎症,但它们在炎症的位置、特征和治疗方法上存在差异 。
克罗恩病(Crohn’s Disease):
- 可以影响消化道的任何部位,但最常涉及小肠和近端结肠 。
- 症状可能包括腹泻、腹痛、恶心或呕吐,体重减轻、发热和疲劳等全身表现 。
- 病因不明,但可能涉及遗传、环境和免疫因素 。
- 治疗方法包括药物治疗(如5-氨基水杨酸类药物、皮质类固醇、免疫抑制剂、生物制剂)和手术治疗,但手术通常不是治愈性的 。
溃疡性结肠炎(Ulcerative Colitis):
- 主要影响结肠,通常从直肠开始,并向近端连续扩散 。
- 症状包括血性腹泻(可能伴有黏液)、腹痛、急迫感或排便不尽感、体重减轻和发热 。
- 病因同样不明,可能与遗传、环境因素、肠道菌群的改变和免疫反应有关 。
- 治疗方法包括药物治疗(如5-氨基水杨酸类药物、皮质类固醇、免疫抑制剂、生物制剂)和手术治疗,手术可能治愈性,如全结肠切除术 。
两者的诊断通常基于临床症状、内镜检查、组织病理学检查和排除其他消化道疾病 。治疗的目标是控制炎症、缓解症状、维持缓解期,并改善生活质量 。
值得注意的是,克罗恩病和溃疡性结肠炎都可能伴有肠外表现,如关节炎、皮肤病变、眼部炎症等 。此外,两者都增加了患者患结直肠癌的风险,特别是当疾病影响广泛且长期时 。定期的结肠镜检查对于监测和早期发现癌症至关重要 。
总的来说,克罗恩病和溃疡性结肠炎虽然都属于IBD,但它们在影响的消化道部位、炎症的连续性、可能的并发症以及治疗策略上存在差异。患者需要与医疗团队紧密合作,制定个性化的治疗计划,以管理病情并提高生活质量 。
Affymetrix、Illumina和Agilent三家芯片公司
我让人工智能大模型整理一下,Affymetrix、Illumina和Agilent三家公司的基因表达芯片平台在研究和临床领域都有广泛的应用。以下是它们各自的一些高占比平台:
- Affymetrix:
- GeneChip: 作为Affymetrix的核心技术,GeneChip平台包括多种不同的芯片,用于基因表达分析、基因分型、拷贝数变异检测等。
- GeneTitan: 专为高通量研究设计,GeneTitan平台能够处理多达96个样品,适合大规模基因表达研究。
- Illumina:
- BeadChip技术: Illumina的BeadChip平台包括多种产品,如HumanHT-12 Expression BeadChip,用于研究人类基因表达。
- Infinium甲基化芯片: 这些芯片专门用于研究DNA甲基化,包括Infinium MethylationEPIC BeadChip等。
- Agilent:
- SurePrint G3: Agilent的SurePrint G3系列提供高灵敏度和特异性的基因表达分析。
- Custom Array Design Service: Agilent还提供定制芯片服务,允许研究者根据特定需求设计芯片。
感觉它整理的并不好,大家还不如去GEO数据库的官网看看这些不同公司的不同芯片平台的使用情况。