性能感知训练 (GRPO)

性能感知GRPO训练是一种面向高性能计算（HPC）代码生成的强化学习训练方法。由名古屋大学研究团队展示，该方法通过强化学习算法（GRPO），让大模型在自动生成底层计算代码时，不仅保证语法的正确性，还能主动感知并优化代码在超算平台上的运行性能。这为工业软件的底层提效提供了新思路，是算法优化在工业仿真和AI4S领域的重要前沿方向。