R语言练习的时候那些内置数据集

很多人的R语言教程都是读取一个外部文件,这样的话读者很难说重复出来,因为这个外部文件往往是存储在各自的本地电脑。除非是在线数据集读取,或者说是把数据集文件上传到各自云盘,就会多一个工序,而这个时候使用那些内置数据集是一个很好的选择。

R语言提供了许多内置的数据集,这些数据集可以在学习和练习时使用,帮助你熟悉R的数据分析和可视化操作。以下是一些常用的内置数据集及其简要介绍:

  1. iris: 鸢尾花数据集,包含150个样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),分为3个不同种类的鸢尾花。
  2. mtcars: 汽车性能数据集,包含32辆汽车的性能参数,如马力、重量、加速度等。
  3. ChickWeight: 小鸡体重数据集,记录了不同饲料和时间点下小鸡的体重数据。
  4. AirPassengers: 航空旅客数据集,包含1949年至1960年的每月国际航空旅客数量。
  5. swiss: 瑞士人口数据集,包含瑞士各州的相关指标,如农村人口比例、不合格的军队适龄人数等。
  6. faithful: 喷泉喷发时间数据集,记录了Old Faithful喷泉的喷发时间和间隔时间。
  7. trees: 树木生长数据集,包含了3种不同类型的树木的直径、高度和体积。
  8. quakes: 地震数据集,包含1964年至1975年新西兰地震的相关信息。
  9. economics: 美国宏观经济数据集,包含一些经济指标,如失业率、工资等。
  10. USArrests: 美国各州的暴力犯罪数据集,包含了每个州的人口、暴力犯罪率等。

使用这些内置数据集,你可以练习数据的导入、处理、可视化等操作,以及统计分析和机器学习的练习。你可以使用以下代码来加载这些数据集:

data(iris)
data(mtcars)
data(ChickWeight)
data(AirPassengers)
data(swiss)
data(faithful)
data(trees)
data(quakes)
data(economics)
data(USArrests)

每个数据集的具体内容和字段可以通过R的帮助文档或在线文档进行查阅。例如,你可以使用 ?iris 命令来获取关于iris数据集的详细信息。

分门别类的更多数据集

当涉及到不同的数据结构,你可以按照向量、因子、矩阵、数据框(类似数据库表格结构)、列表等分类列出这些内置数据集。以下是按照这些数据结构分类的一些内置数据集示例,以下是按照不同数据结构分类的内置数据集的名称和简要描述:

向量:

  • euro: 欧元汇率数据,长度为11的命名向量。
  • landmasses: 48个陆地的面积,每个有命名。
  • precip: 长度为70的命名向量,可能表示降水量。
  • rivers: 北美141条河流的长度。
  • state.abb: 美国50个州的双字母缩写。
  • state.area: 美国50个州的面积。
  • state.name: 美国50个州的全称。

因子:

  • state.division: 美国50个州的分类,有9个类别。
  • state.region: 美国50个州的地理分类。

矩阵、数组:

  • euro.cross: 11种货币的汇率矩阵。
  • freeny.x: 影响收入四个因素的记录。
  • state.x77: 美国50个州的八个指标。
  • USPersonalExpenditure: 5个年份在5个消费方向的数据。
  • VADeaths: 1940年弗吉尼亚州死亡率数据。
  • volcano: 某火山区的地理信息。
  • WorldPhones: 8个区域在7个年份的电话总数。
  • iris3: 3种鸢尾花形态数据。
  • Titanic: 泰坦尼克乘员统计。
  • UCBAdmissions: 伯克利分校1973年院系、录取和性别的频数。
  • crimtab: 3000个男性罪犯左手中指长度和身高关系。
  • HairEyeColor: 592人头发颜色、眼睛颜色和性别的频数。
  • occupationalStatus: 英国男性父子职业联系。

类矩阵:

  • eurodist: 欧洲12个城市的距离矩阵。
  • Harman23.cor: 305个女孩八个形态指标的相关系数矩阵。
  • Harman74.cor: 145个儿童24个心理指标的相关系数矩阵。

数据框:

  • airquality: 纽约1973年5-9月每日空气质量。
  • anscombe: 四组x-y数据,实际数据差异较大。
  • attenu: 加利福尼亚23次地震的观测数据。
  • attitude: 30个部门在七个方面的调查结果。
  • beaver1: 一只海狸每10分钟的体温数据。
  • beaver2: 另一只海狸每10分钟的体温数据。
  • BOD: 随水质的提高,生化反应对氧的需求随时间的变化。
  • cars: 1920年代汽车速度对刹车距离的影响。
  • chickwts: 不同饮食种类对小鸡生长速度的影响。
  • esoph: 法国的一个食管癌病例对照研究。
  • faithful: 一个间歇泉的爆发时间和持续时间等。

列表:

  • state.center: 美国50个州中心的经度和纬度。

类数据框:

  • ChickWeight: 饮食对鸡生长的影响。
  • CO2: 耐寒植物CO2摄取的差异。
  • DNase: 若干次试验中,DNase浓度和光密度的关系等。

这些是一些内置数据集的简要描述,你可以在R中使用相应的数据集名称来访问和探索这些数据。

大家可以使用上面的测试数据集来做一些生物信息常见图表

生物信息学中常用的图表有很多种,用于可视化不同类型的生物数据和分析结果。以下是一些常见的生物信息学图表类型:

  1. 折线图(Line Plot): 用于显示数据随时间、条件等变化的趋势,例如基因表达随时间的变化。
  2. 柱状图(Bar Plot): 用于比较不同类别之间的数据,例如不同基因的表达水平。
  3. 散点图(Scatter Plot): 用于显示两个变量之间的关系,例如基因表达的相关性。
  4. 箱线图(Box Plot): 用于显示数据的分布和统计信息,包括中位数、四分位数等,常用于比较不同组之间的数据分布。
  5. 热图(Heatmap): 用于显示基因表达矩阵等数据的模式,颜色表示数值大小,有助于发现基因表达模式。
  6. 曲线图(Curve Plot): 用于显示曲线、函数等的形状,常用于绘制剖面图、曲线拟合等。
  7. 散点密度图(Scatter Density Plot): 类似于散点图,但可以显示点的密度,有助于发现密集区域。
  8. 基因组浏览图(Genome Browser Plot): 用于显示基因组上的特征,如基因、外显子、内含子等。
  9. Venn图: 用于显示多个数据集之间的共有和独有元素,例如基因集的重叠。
  10. 网络图(Network Plot): 用于显示分子相互作用、蛋白质-蛋白质互作用等网络关系。
  11. 气泡图(Bubble Plot): 类似于散点图,但点的大小表示第三个维度的数值。
  12. 韦恩图(Venn Diagram): 用于显示集合之间的重叠和差异。
  13. 生物通路图(Pathway Diagram): 用于显示代谢通路、信号传导通路等生物学过程。
  14. 箱线密度图(Box Density Plot): 结合了箱线图和核密度图,用于更全面地显示数据分布。
  15. 瀑布图(Waterfall Plot): 用于显示多个数据点之间的增减关系,常用于基因突变的分析。

是否有专门的生物信息学数据集呢

R语言中有一些专门用于生物信息学分析的R包体系,可以在生物信息学领域进行练习和研究。以下是一些常用的生物信息学R包体系的示例:

  1. Bioconductor数据集: Bioconductor是一个R语言的生物信息学软件包库,提供了许多生物学分析所需的数据集。例如,”Biobase” 包中包含了许多基因表达数据集,”GenomicRanges” 包中包含了基因组坐标数据集等。
  2. IRanges数据集: “IRanges” 包提供了处理基因组坐标的工具,包括基因的外显子、内含子等信息。
  3. GEOquery数据集: “GEOquery” 包允许你从NCBI的基因表达数据库(GEO)中下载和分析基因表达数据。
  4. TCGA数据集: “TCGAbiolinks” 包提供了访问和分析The Cancer Genome Atlas (TCGA) 数据的功能,这是一个涵盖多种癌症基因组数据的项目。
  5. BioMart数据集: “biomaRt” 包允许你从Ensembl数据库中获取基因注释和基因组信息。
  6. seqinr数据集: “seqinr” 包提供了处理生物序列数据(如DNA、RNA、蛋白质序列)的工具和数据集。
  7. msms.data数据集: “msms.data” 包提供了质谱数据集,用于蛋白质质谱分析。
  8. BSgenome数据集: “BSgenome” 包中包含了许多生物物种的基因组序列数据。
  9. Homo.sapiens数据集: “Homo.sapiens” 包中包含了人类基因组注释信息。

 

Comments are closed.