.hdf5
Data
HDF5(层次数据格式 5)
HDF5 是用于存储和管理大型科学数据集的文件格式和库。它支持类似文件系统的层次化组/数据集结构,以及任意维度的数据集。HDF5 是卫星图像、基因组学和物理模拟的标准格式。
MIME 类型
application/x-hdf5
类型
二进制
压缩
无损
优点
- + Handles datasets from kilobytes to exabytes
- + Hierarchical structure organizes complex data
- + Built-in compression and chunked storage for performance
- + Parallel I/O support for HPC clusters
缺点
- − Complex API with a steep learning curve
- − Not suited for simple tabular data (use Parquet or CSV)
- − File corruption risk with concurrent writes without locks
何时使用 .HDF5
在大型科学数据集、多维数组以及任何需要具有高效 I/O 的层次化数据组织时使用 HDF5。
技术细节
HDF5 文件将数据组织为组(目录)和数据集(多维数组),并带有元数据属性。支持分块存储、压缩过滤器(gzip、LZF、SZIP)和用于高性能计算的并行 I/O。
历史
HDF Group(最初位于伊利诺伊大学 NCSA)在 1980 年代末创建了 HDF。HDF5 于 1998 年发布,是一次全面的重新设计,现在被 NASA、CERN 和基因组学社区使用。