统一格式(HDF5)

统一格式(HDF5)

统一格式(HDF5)

统一格式(HDF5)是 The Well 项目采用的标准数据存储格式,旨在降低不同物理领域数据集的使用门槛。

规格

  • 存储格式:HDF5
  • 网格类型:均匀网格
  • 时间采样:恒定时间间隔
  • 精度:fp32
  • 元数据:附带 YAML 文件
  • 数据形状(n_traj, n_steps, coord1, coord2, [coord3])

优势

  • 统一接口:所有 16 个数据集采用相同格式,研究者无需为每个数据集编写不同的加载代码
  • PyTorch 原生支持the_well 包提供 WellDataset 类,一行代码即可加载 DataLoader
  • Hugging Face 流式加载:支持无需全量下载的流式数据访问
  • 易于探索:可用 xarray、matplotlib 等工具直接进行可视化

意义

统一格式是 The Well 项目降低使用门槛、促进社区采用的关键设计决策。它使得研究者可以专注于模型开发和科学问题,而非数据格式适配。

分享到