TraderBench

arXiv新上线的研究论文《TraderBench: How Robust Are AI Agents in Adversarial Capital Markets?》，对13款主流AI模型在对抗性市场环境中的表现进行了压力测试。

核心发现

TraderBench的研究结果挑战了业界对AI Agent能力的乐观预期，为[[智能体博弈能力]]概念提供了实证基础，也为[[ai-junior-engineer]]框架中"AI初级工程师需要人类监督"的论点提供了支持。