为了感谢大家对我博客的关注,我在这里发布一个作业,适合菜鸟做的。里面有十几个类似的问题,大家可以下载数据自行处理,如果是问这些问题,我优先回答!
NCBI的ftp里面关于人的一些基因信息
我在NCBI的ftp服务器里面下载了这些数据,时间是2015年,大多是hg19系列的,文件名如下:
CDS.fa 这个是ensembl中人的CDS碱基序列文件,hg38
entrez2go.gene 这个是有go注释的基因情况,有一万八的基因都有go注释
entrez2name.gene 这个是NCBI的entrez ID号对应着基因名的文件
entrez2pubmed.gene 这个是NCBI的entrez ID号对应着该基因发表过的文章的ID号
entrez2refseq2ensembl.gene 这个是NCBI的entrez ID号对应着基因名的refseq的ID号和ensembl数据库的ID号
human_gene_info这个是基因的详细信息,包括基因的起始终止点坐标等等
Protein.fa 这个是ensembl中人的蛋白的氨基酸序列文件,有十万多个蛋白hg38
ref2ensembl.txt 这个是基因名的refseq的ID号和ensembl数据库的ID号
自行去NCBI的ftp服务器里面下载这些数据。
然后好好熟悉这些数据信息,回答一下几个问题:
人总的基因有多少个,它们分别分布在哪些染色体上面,基因的转录本分布情况如何,基因的长度分布如何,基因的外显子个数如何。
CD分子的基因有多少个,它们分别分布在哪些染色体上面,基因的转录本分布情况如何,基因的长度分布如何,基因的外显子个数如何。它们有没有氨基酸偏好性??
MHC系列基因信息?CCL系列基因信息如何?CXCL系列信息如何?或者你感兴趣的基因家族信息?
现在研究最热门的基因是什么?发表文章最多的前十个基因是什么?
基因长度情况如何?最长的基因多长?最短的基因多少bp,可靠吗?
蛋白质长度情况如何?
每条染色体的基因分别情况?基因在染色体那个地方分别最多?
请用图形展示你的结论!!!
如果你能回答以上问题,证明你的脚本水平不错了。
如果找不到我,看旁边的公告,加入生信菜鸟群,我就在里面!!!