屏幕刮取/像素解析
概述
屏幕刮取/像素解析是当前AI代理与网页交互的旧有方式。代理通过截屏和解析DOM来“假装人类”进行交互,这种方式效率低下且消耗大量令牌。
工作流程
- 代理渲染目标页面
- 截取页面截图
- 用视觉模型解析截图内容
- 决定点击或输入动作
- 执行操作并等待页面响应
- 重复上述步骤
主要问题
- 效率低下:整个过程可能需要数秒并消耗数千令牌
- 可靠性差:与不可预测的UI斗争,容易出错
- 高计算开销:需要视觉模型和DOM解析
- 令牌浪费:大量令牌用于处理视觉信息而非实际任务
WebMCP的改进
WebMCP通过让代理直接调用结构化工具,完全消除了屏幕刮取/像素解析的需求。代理直接查询可用工具列表,选择合适的函数调用,结果立即返回。早期基准测试显示,WebMCP可减少67%的计算开销。