GDPVal(经济价值任务基准)
衡量AI在编写代码、战略咨询、财务建模等"高价值"任务上表现的基准测试。Morgan Stanley在2026年3月报告中引用此基准作为核心证据:OpenAI GPT-5.4在此基准上得分83.0%,已达到或超过人类专家水平。
核心意义
- 衡量AI在真实经济任务中的表现
- 超越传统学术基准,聚焦实际经济价值
- 83%的得分标志着AI在特定高价值任务上可与顶尖专业人士并肩甚至超越
在报告中的作用
- 作为"颠覆性飞跃"的核心证据
- 证明AI能力已超预期,曲线只会更陡
- 为scaling laws提供实证支持