原生计算机操作 (Native Computer Use)
AI模型直接识别屏幕UI元素、模拟鼠标点击、键盘输入和跨应用工作流的能力。这是GPT-5.4的核心卖点,也是"万物代理化"的技术基础。
技术特点
- 与早期API调用不同,模型可直接操作图形用户界面
- 支持跨应用工作流自动化
- 在GDPval测试中,44个职业类别的复杂任务处理表现达到或超过83%的人类专业人士水平
战略意义
- 标志着LLM从"大脑"演变为"四肢"
- 是[[代理元年]]的核心技术标志
- 重新定义了人机协作的边界
相关概念
- [[代理元年]] — 所属时代背景
- [[万物代理化]] — 发展趋势
- [[指令分层]] — 安全基础
- [[physical-ai]] — 在数字世界的体现