严肃工程工作
区别于"写个Web App"等简单任务,指需要跨学科知识、长时程规划和容错调试的硬核工程。antirez的SCSI逆向工程实验是严肃工程工作的典型案例。
特征
- 需要跨学科知识整合
- 长时程规划和执行
- 需要容错调试能力
- 涉及底层系统理解
评估AI能力的标准
antirez强调,我们不能再用"写个Web App"这样的玩具任务来评判模型。真正的战场是那些需要跨学科知识、长时程规划、容错调试的硬核工程。他的实验表明,不同AI模型在严肃工程工作上的能力存在本质鸿沟。
启示
- AI正在改变软件工程的生产力曲线
- 模型选择、任务复杂度、人类监督的粒度决定最终成果
- 人类"战略导航"在严肃工程工作中至关重要