nature杂志的TECHNOLOGY FEATURE 栏目在13 JANUARY 2020发表了一个有趣的小短文:Eleven tips for working with large data sets,副标题是:Big data are difficult to handle. These tips and tricks can smooth the way.
我简要概括一下:
珍惜您的数据
- 多处备份原始数据
- 冷存储
可视化
- 一图胜千言
- 流程里每个步骤独立质量控制,组合质量控制
工作流
结合了软件代码,文本和图形的文档,交互式报表
- rmarkdown
- jupyter notebook
版本控制
- md5文件
- zenodo
数据的描述信息
- 描述了如何收集,格式化和组织观测
自动化
记录时间消耗
- 大数据集需要高性能计算(HPC)
- 云服务器提供商
系统运行环境
- 操作系统和软件库
- Docker容器
流程里面不要下载数据
- 数据库文件打包在流程
学一门编程语言
- 基础命令行操作
- 诸如Python或R之类的编程语言
善用帮助资源
- Stack Overflow
- 现场培训