这不是一个稀奇的表达量芯片平台

马拉松授课的表达量芯片环节结束后，学员们都迫不及待的处理自己感兴趣的数据集了，其中一个小伙伴表示发现了一个稀奇的表达量芯片平台，是 GPL19833，[HG-U219] Affymetrix Human Genome U219 Array (ENSG Brainarray CDF Version 18.0.0)，如下所示：

Data table
ID ORF Description
ENSG00000000003_at ENSG00000000003 tetraspanin 6 [Source:HGNC Symbol;Acc:11858]
ENSG00000000005_at ENSG00000000005 tenomodulin [Source:HGNC Symbol;Acc:17757]

可以看到，它：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL19833 对应的就一个数据集：GSE66407 Gut biopsies from patients with Crohn’s Disease and Ulcerative Colitis and healthy controls

其实说明了它并不是一个独立的表达量芯片平台，就是 [HG-U219] Affymetrix Human Genome U219 Array 本身，它有很多变形，拿到了的表达量矩阵就是简简单单进行ID转换即可。

需要有数据库的基因的id基础认知

RefSeq、Entrez和Ensembl是生物信息学领域中三个重要的id体系，它们各自拥有独特的基因和蛋白质的标识符（ID）体系：

RefSeq IDs:
- RefSeq（Reference Sequences）是美国国立生物技术信息中心（NCBI）提供的一组非冗余、经过注释的序列数据库。
- RefSeq IDs通常以字母开头，后跟数字，例如：NM_000123.4（mRNA序列）或NP_000132.2（蛋白质序列）。
- 这些ID代表了基因的特定参考序列，可用于准确引用特定的基因或蛋白质。
Entrez IDs:
- Entrez是NCBI开发的一个综合性生物信息学数据库检索系统，它包括多个数据库，如基因（Genome）、蛋白质（Protein）、核酸序列（Nucleotide）等。
- Entrez Gene ID是用于唯一标识数据库中每个基因的数字ID，例如：100010（人类基因）。
- 除了Gene ID，Entrez系统还使用Protein ID来标识特定的蛋白质序列。
Ensembl IDs:
- Ensembl是一个开放的生物信息学项目，由欧洲生物信息学研究所（EBI）和威康信托桑格研究所（Wellcome Sanger Institute）共同维护。
- Ensembl使用一系列ID来标识基因、转录本和蛋白质。这些ID通常以字母前缀开头，后跟数字，例如：ENSG00000223972（基因）、ENST00000456328（转录本）、ENSP00000359063（蛋白质）。
- 前缀表示序列的类型，例如：ENSG代表基因，ENST代表转录本，ENSP代表蛋白质。

每个数据库的ID体系都有其特定的命名规则和结构，以确保每个基因、转录本或蛋白质都有一个唯一的标识符。这些ID在生物信息学分析、文献和数据库查询中广泛使用，以确保信息的准确传递和检索。

在实际使用中，研究者可能需要在不同的数据库之间转换ID，例如，将一个数据库中的基因ID转换为另一个数据库的ID。这可以通过使用各种在线工具和资源来实现，如NCBI的Entrez系统、Ensembl的BioMart工具，或者通过编程方式使用API进行转换。

很多id转换方式

上面的表达量矩阵的探针其实只需要去除那个 _at 的后缀，就是Ensembl数据库的ID了，然后就可以如下所示简单的转换：

library(AnnoProbe)
head(rownames(ensembl_matrix))
ids=annoGene(rownames(ensembl_matrix),'ENSEMBL','human')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENSEMBL),]
symbol_matrix= ensembl_matrix[match(ids$ENSEMBL,rownames(ensembl_matrix)),]
rownames(symbol_matrix) = ids$SYMBOL

假如你拿到了的是RefSeq或者Entrez的id体系的表达量矩阵，也是可以进行下面的转换啦：

library(AnnoProbe)
library(org.Hs.eg.db)
k<-AnnotationDbi::keys(org.Hs.eg.db,keytype = "ENTREZID")
e2s<-AnnotationDbi::select(org.Hs.eg.db,
 keys= rownames(ENTREZID_matrix),
 columns="SYMBOL",
 keytype = "ENTREZID")
head(e2s)
ids = na.omit(e2s)
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENTREZID),]
head(ids)
symbol_matrix= ENTREZID_matrix[match(ids$ENTREZID,rownames(ENTREZID_matrix)),]
rownames(symbol_matrix) = ids$SYMBOL
symbol_matrix[1:4,1:4]

最后都是以基因的symbol矩阵做后面的分析，因为我们人类只能说是看基因的symbol来进行沟通和交流。

学徒作业

处理上面的GSE66407数据集，是 Gut biopsies from patients with Crohn’s Disease and Ulcerative Colitis and healthy controls ，是应该是有三分组，然后就可以做两次差异分析，做Crohn’s Disease and Ulcerative Colitis分别去跟healthy controls的差异。看看这个差异跟https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE77013里面的 UC (n=8) and control (n=7) 的差异是否有一致性；

UC (n=8) and control (n=7) 的差异

Crohn’s Disease（克罗恩病）和Ulcerative Colitis（溃疡性结肠炎）是两种主要的炎症性肠病（Inflammatory Bowel Disease, IBD）。它们都会引起消化道的长期炎症，但它们在炎症的位置、特征和治疗方法上存在差异。

克罗恩病（Crohn’s Disease）：

可以影响消化道的任何部位，但最常涉及小肠和近端结肠。
症状可能包括腹泻、腹痛、恶心或呕吐，体重减轻、发热和疲劳等全身表现。
病因不明，但可能涉及遗传、环境和免疫因素。
治疗方法包括药物治疗（如5-氨基水杨酸类药物、皮质类固醇、免疫抑制剂、生物制剂）和手术治疗，但手术通常不是治愈性的。

溃疡性结肠炎（Ulcerative Colitis）：

主要影响结肠，通常从直肠开始，并向近端连续扩散。
症状包括血性腹泻（可能伴有黏液）、腹痛、急迫感或排便不尽感、体重减轻和发热。
病因同样不明，可能与遗传、环境因素、肠道菌群的改变和免疫反应有关。
治疗方法包括药物治疗（如5-氨基水杨酸类药物、皮质类固醇、免疫抑制剂、生物制剂）和手术治疗，手术可能治愈性，如全结肠切除术。

两者的诊断通常基于临床症状、内镜检查、组织病理学检查和排除其他消化道疾病。治疗的目标是控制炎症、缓解症状、维持缓解期，并改善生活质量。

值得注意的是，克罗恩病和溃疡性结肠炎都可能伴有肠外表现，如关节炎、皮肤病变、眼部炎症等。此外，两者都增加了患者患结直肠癌的风险，特别是当疾病影响广泛且长期时。定期的结肠镜检查对于监测和早期发现癌症至关重要。

总的来说，克罗恩病和溃疡性结肠炎虽然都属于IBD，但它们在影响的消化道部位、炎症的连续性、可能的并发症以及治疗策略上存在差异。患者需要与医疗团队紧密合作，制定个性化的治疗计划，以管理病情并提高生活质量。

Affymetrix、Illumina和Agilent三家芯片公司

我让人工智能大模型整理一下，Affymetrix、Illumina和Agilent三家公司的基因表达芯片平台在研究和临床领域都有广泛的应用。以下是它们各自的一些高占比平台：

Affymetrix:
- GeneChip: 作为Affymetrix的核心技术，GeneChip平台包括多种不同的芯片，用于基因表达分析、基因分型、拷贝数变异检测等。
- GeneTitan: 专为高通量研究设计，GeneTitan平台能够处理多达96个样品，适合大规模基因表达研究。
Illumina:
- BeadChip技术: Illumina的BeadChip平台包括多种产品，如HumanHT-12 Expression BeadChip，用于研究人类基因表达。
- Infinium甲基化芯片: 这些芯片专门用于研究DNA甲基化，包括Infinium MethylationEPIC BeadChip等。
Agilent:
- SurePrint G3: Agilent的SurePrint G3系列提供高灵敏度和特异性的基因表达分析。
- Custom Array Design Service: Agilent还提供定制芯片服务，允许研究者根据特定需求设计芯片。

感觉它整理的并不好，大家还不如去GEO数据库的官网看看这些不同公司的不同芯片平台的使用情况。

一	二	三	四	五	六	日
« 九
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

这不是一个稀奇的表达量芯片平台

需要有数据库的基因的id基础认知

很多id转换方式

学徒作业

Affymetrix、Illumina和Agilent三家芯片公司