动作序列化 article https://gyznsw.cn/knowledge/wiki/concepts/%E5%8A%A8%E4%BD%9C%E5%BA%8F%E5%88%97%E5%8C%96.html 动作序列化 动作序列化是VLA模型(Vision-Language-Action)的一项核心能力,指AI将需要执行的一系列操作(如鼠标点击、拖拽、键盘输入)转化为一个有序的动作指令序列。 技术意义 动作序列化是VLA模型输出端的具体表现形式。结合[[UI像素化]],VLA模型能够不依赖软件开放接口(API),直接生成操作指令,实现对任何软件的自动化操控。