长时程自主任务

需要AI在长时间内（数小时到数天）独立规划、执行和调试的复杂任务。antirez的SCSI逆向工程实验是长时程自主任务的典型案例。

任务特征

antirez的实验表明，不同AI模型在长时程自主任务上的能力存在本质鸿沟。GPT 5.4能够稳步推进，而Claude Opus 4.6陷入停滞和幻觉。这揭示了简单基准测试无法体现的AI能力差异。

在长时程自主任务中，人类"战略导航"至关重要。高层次提示能打破AI的僵局，帮助模型找到正确路径。