所谓学习技巧无非就是善于发现规律

有学徒提问,根据我b站课程,知道了org.db包是有规律的,比如:

org.Hs.eg.db
org.Mm.eg.db
org.Rn.eg.db
org.Sc.sgd.db
org.Dm.eg.db
org.At.tair.db
org.Dr.eg.db
org.Ce.eg.db
org.Bt.eg.db
org.Gg.eg.db
org.Cf.eg.db
org.Ss.eg.db

很明显不同物种就是2个字符的简称即可,这个对应表格很明显是物种的拉丁名。但是在使用一个需要TxDb的R包时候,自己的物种是斑马鱼org.Dr.eg.db,请问对应的Txdb怎么找?

实际上,我虽然是仅仅讲解了org.db包的规律,但是很明显,txdb包也是有规律的。

http://www.bioconductor.org/packages/release/BiocViews.html 可以查看全部的bioconductor的注释包。

查看全部的bioconductor的注释包

简单搜索,可以看到规律如下:

TxDb.Hsapiens.UCSC.hg18.knownGene
TxDb.Rnorvegicus.UCSC.rn4.ensGene
TxDb.Celegans.UCSC.ce6.ensGene
TxDb.Mmusculus.UCSC.mm10.ensGene
TxDb.Athaliana.BioMart.plantsmart22
TxDb.Drerio.UCSC.danRer10.refGene
TxDb.Dmelanogaster.UCSC.dm6.ensGene
TxDb.Celegans.UCSC.ce11.refGene
TxDb.Scerevisiae.UCSC.sacCer3.sgdGene
TxDb.Hsapiens.UCSC.hg19.lincRNAsTranscripts

物种的规律仍然是拉丁名的简称。

数据库来源可以是UCSC和BioMart。

基因类型的规律就是knownGene和ensGene。

实际上,bioconductor的这些注释包,就是把其它数据库资源包装了一下。所有的内容都在:https://hgdownload.soe.ucsc.edu/downloads.html,物种列表是:[ftp://hgdownload.soe.ucsc.edu/goldenPath](ftp://hgdownload.soe.ucsc.edu/goldenPath)

kegg数据库的物种列表

见:https://www.genome.jp/kegg/catalog/org_list4.html

Homo sapiens 9606
Pan troglodytes 9598
Pan paniscus 9597
Gorilla gorilla 9593
Pongo abelii 9601
Nomascus leucogenys 61853
Macaca mulatta 9544
Macaca fascicularis 9541
Chlorocebus sabaeus 60711
Rhinopithecus roxellana 61622
Rhinopithecus bieti 61621
Callithrix jacchus 9483
Saimiri boliviensis 27679
Mus musculus 10090
Mus caroli 10089

同样的是拉丁名,双名。其中人类是Homo sapiens,后面的9606是NCBI数据库给的一个物种唯一ID。

所有的数据库,应该是说绝大部分知识点,都是有规律的, 所以虽然说我在生信技能树所写的1.3万篇教程是人类研究领域的, 但是其实可以比较方便的迁移到大家自己的领域。

Comments are closed.