TraderBench
arXiv新上线的研究论文《TraderBench: How Robust Are AI Agents in Adversarial Capital Markets?》,对13款主流AI模型在对抗性市场环境中的表现进行了压力测试。
核心发现
- 长链推理(CoT)的局限性:CoT虽能显著提升检索准确度(+26分),但对实际交易收益(+0.3分)几乎没有帮助。
- 策略僵化:在加密货币和期权交易的对抗性模拟中,即便拥有"思考(Thinking)"模式的模型,在面对市场操纵时也表现出严重的策略僵化。
- 结论:目前的AI智能体尚不具备真正的动态市场博弈能力。
行业意义
TraderBench的研究结果挑战了业界对AI Agent能力的乐观预期,为[[智能体博弈能力]]概念提供了实证基础,也为[[ai-junior-engineer]]框架中"AI初级工程师需要人类监督"的论点提供了支持。