长时程自主任务
需要AI在长时间内(数小时到数天)独立规划、执行和调试的复杂任务。antirez的SCSI逆向工程实验是长时程自主任务的典型案例。
任务特征
- 持续时间长(数小时到数天)
- 需要自主规划和执行
- 涉及跨学科知识整合
- 需要容错调试能力
评估AI能力的关键维度
antirez的实验表明,不同AI模型在长时程自主任务上的能力存在本质鸿沟。GPT 5.4能够稳步推进,而Claude Opus 4.6陷入停滞和幻觉。这揭示了简单基准测试无法体现的AI能力差异。
人类角色
在长时程自主任务中,人类"战略导航"至关重要。高层次提示能打破AI的僵局,帮助模型找到正确路径。