统一格式(HDF5)
统一格式(HDF5)是 The Well 项目采用的标准数据存储格式,旨在降低不同物理领域数据集的使用门槛。
规格
- 存储格式:HDF5
- 网格类型:均匀网格
- 时间采样:恒定时间间隔
- 精度:fp32
- 元数据:附带 YAML 文件
- 数据形状:
(n_traj, n_steps, coord1, coord2, [coord3])
优势
- 统一接口:所有 16 个数据集采用相同格式,研究者无需为每个数据集编写不同的加载代码
- PyTorch 原生支持:
the_well包提供 WellDataset 类,一行代码即可加载 DataLoader - Hugging Face 流式加载:支持无需全量下载的流式数据访问
- 易于探索:可用 xarray、matplotlib 等工具直接进行可视化
意义
统一格式是 The Well 项目降低使用门槛、促进社区采用的关键设计决策。它使得研究者可以专注于模型开发和科学问题,而非数据格式适配。