Please enable Javascript to view the contents

具身智能模型的三条路线:VLA、世界模型与 WAM

 ·  ☕ 7 分钟 · 👀... 阅读
Read aloud Ready
0/0

如果大语言模型只需要回答一句话,那么具身智能模型要多回答一个问题:这句话接下来要变成什么动作?

比如你对桌面机器人说:“把红色杯子推到盘子旁边。”模型不只要识别杯子、理解“旁边”,还要决定机械臂下一步往哪里移动、夹爪什么时候闭合、动作失败后如何修正。这里的难点不是多模态本身,而是语言、视觉、物理状态和连续动作之间有闭环:动作会改变世界,新的世界又会改变下一步动作。

这篇文章把近期具身领域的模型发展整理成三条路线:

  • VLA(Vision-Language-Action):把视觉和语言直接接到动作输出上,像给机器人训练一个多模态策略。
  • JEPA / world model:先学习世界如何变化,尤其是在 latent space 里预测未来状态,再把它用于规划或控制。
  • WAM(World Action Model):把“预测世界”和“产生动作”放到同一个生成模型里,让动作成为对未来世界变化的解释。

这不是严格互斥的分类。更准确地说,它们是在问同一个问题:模型到底应该预测 action,预测 future state,还是同时预测两者的关系?

这里要先澄清一个容易混淆的层级:world model 不是和 VLA、JEPA、WAM 完全并列的第四类。它更像一个总问题:模型是否显式学习“行动之后世界会怎样变化”。JEPA 是一种偏 representation-learning 的 world-model 路线;WAM 则把 world model 和 action model 绑得更紧。VLA 也可以隐式学到一部分 world model,但它通常不把“预测未来世界”作为显式训练目标。

图 1: 具身模型的核心变量:视觉/语言输入、世界状态、动作,以及动作造成的新世界

图 1: 具身模型的核心变量:视觉/语言输入、世界状态、动作,以及动作造成的新世界

先把问题写成一个小闭环

先不用机器人术语,把一次控制循环写成四个变量:

  • \(o_t\):当前观察,比如相机图像、深度图、关节位置。
  • \(g\):任务条件,比如一句自然语言指令。
  • \(a_t\):下一步动作,比如末端执行器位姿增量或离散动作 token。
  • \(s_{t+1}\):动作之后的世界状态,通常不能被完整观测,只能从未来图像或传感器里间接看到。

普通多模态问答大多学的是:

$$p(\text{answer} \mid o, g)$$

具身控制至少要学:

$$p(a_t \mid o_{\le t}, g)$$

但这还不够。因为好动作不是孤立标签,它的意义来自动作之后世界是否朝目标变化:

$$o_t, g \rightarrow a_t \rightarrow o_{t+1} \rightarrow a_{t+1}$$

所以不同模型路线的分歧,主要在于把学习压力放在哪里。

路线主要预测目标优点典型风险
VLA直接预测动作简单、端到端、容易利用大规模机器人轨迹容易把物理因果关系藏进策略黑箱
JEPA-style world model预测未来 latent state更像“理解世界会怎样变”,可用于规划latent 是否足够支持控制,需要额外验证
WAM同时建模未来世界与动作把动作解释成改变世界的方式训练目标和数据要求更复杂

VLA:把机器人策略做成多模态模型

VLA 的直觉很直接:既然 transformer 可以把文字、图像、音频都变成 token 序列,那么机器人动作也可以 token 化,或者通过连续 action head 输出。输入是视觉和语言,输出是动作。

flowchart LR
    Image["camera / state<br/>observation"]
    Text["language<br/>instruction"]
    Model["VLA policy<br/>multimodal transformer"]
    Act["robot action<br/>tokens or continuous control"]

    Image --> Model
    Text --> Model
    Model --> Act

代表性脉络大致是:

  • RT-1 把真实机器人数据组织成序列建模问题,用 Transformer 输出离散化动作。它证明了“scale robot data + sequence model”这条路可行。1
  • PaLM-E 把 embodied observations 注入大语言模型,让语言模型能处理多模态传感输入和具身任务。2
  • RT-2 更进一步,把 web-scale vision-language model 的知识迁移到机器人控制,动作也用类似文本 token 的方式表达。3
  • Open X-Embodiment / RT-X 把多个机器人、多个实验室的数据合在一起,推动“跨 embodiment 泛化”。4
  • OpenVLAOcto 代表了开源通用机器人策略方向:前者强调 open-source VLA,后者强调跨机器人数据训练的 generalist policy。56
  • \(\pi_0\) 把 action chunk 作为连续轨迹来生成,用 flow matching 让 VLA 更自然地输出高频连续控制。7

从机制上看,VLA 像是把机器人控制转成一个条件生成问题:

$$a_{t:t+k} = \text{Policy}(o_{\le t}, g)$$

这里的 \(k\) 很关键。只预测单步动作,模型很容易抖动;一次预测一个 action chunk,能让控制更平滑,也让策略学到短时间尺度的技能片段。

VLA 的核心优势是工程上清晰:有数据就训练 policy,有机器人就 roll out,有失败就继续收数据。它的核心边界也很清楚:模型可能会做对很多动作,却没有显式学到“这个动作会怎样改变世界”的因果模型。当环境分布、物体物理属性或任务组合方式变化时,端到端策略可能突然失效。

JEPA / world model:先学世界怎样变

JEPA(Joint-Embedding Predictive Architecture)关心的不是像素级重建,而是在 representation space 里预测被遮住或未来的部分。I-JEPA 从图像开始,V-JEPA 扩展到视频,核心思想是:不要生成每个像素,而是预测一个抽象表征,让模型学到更稳定的世界结构。89

对具身智能来说,这条路线很诱人。因为机器人真正需要的不是漂亮视频,而是一个能回答“如果我这样动,世界会怎样变”的内部状态。

flowchart LR
    Obs["current observation"]
    Encoder["encoder"]
    Latent["latent state"]
    Action["candidate action"]
    Predictor["predictor / world model"]
    Future["future latent state"]
    Planner["planner or policy"]

    Obs --> Encoder --> Latent
    Latent --> Predictor
    Action --> Predictor
    Predictor --> Future
    Future --> Planner
    Planner --> Action

这里有一个重要差别:

  • VLA 直接学 \(p(a_t \mid o_{\le t}, g)\)。
  • world model 更像学 \(p(z_{t+1} \mid z_t, a_t)\),其中 \(z_t\) 是观察的 latent state。

如果模型知道 action 对 future latent 的影响,那么控制就可以变成搜索:尝试几个候选动作,预测未来状态,选最接近目标的那一个。这和自动驾驶、强化学习里的 model-based planning 是同一个思想,只是 representation 由大规模自监督视频学习提供。

V-JEPA 2 把这条线往物理理解和机器人规划推进:用视频自监督学习世界表征,再在 latent space 里做预测和规划。10 它没有把每件事都端到端塞进一个 action head,而是强调“可预测的物理表征”本身。

这条路线的系统边界是:好的 representation 不等于好的控制器。一个 latent 可能很适合视频理解,却不一定保留抓取、接触、摩擦、遮挡恢复所需的信息。因此 JEPA/world model 常常还需要 policy、planner、reward/goal representation 或额外机器人数据来闭环。

WAM:让动作成为未来世界的解释

WAM 可以理解成对 VLA 和 world model 的折中:不要只预测动作,也不要只预测未来状态,而是把两者绑在一起。一个动作之所以合理,是因为它解释了当前观察如何变成目标中的未来观察。

可以把它写成:

$$p(a_{t:t+k}, z_{t+1:t+k} \mid o_{\le t}, g)$$

也就是说,模型既产生动作,也产生或约束未来 latent。这样做的直觉是:如果机器人说“我要把杯子推到盘子旁边”,那么动作序列和未来画面应该互相一致。

flowchart TB
    Goal["language goal"]
    Obs["current observation"]
    WAM["world-action model"]
    Future["predicted future state"]
    Action["action sequence"]
    Robot["robot execution"]

    Goal --> WAM
    Obs --> WAM
    WAM --> Future
    WAM --> Action
    Action --> Robot
    Robot --> Obs

这类想法在 2025-2026 年的论文和 survey 里越来越常见,常被放在 “world models for robotics” 或 “world action models” 的标题下讨论。1112 它背后的趋势很明确:单纯扩大 VLA 参数和数据当然有用,但如果模型内部没有可操作的 future model,长程任务、失败恢复和新组合任务会很吃力。

WAM 的难点也正是在这里:训练目标更复杂。未来状态可以是视频、latent、object-centric state、language subgoal,动作可以是离散 token、连续轨迹、diffusion/flow 生成的 chunk。不同选择会改变数据需求、推理延迟和部署方式。

三条路线其实在共享一个原则

把这些模型放在一起看,会发现它们不是互相替代,而是在不同位置加入结构。

flowchart LR
    A["VLA<br/>predict action"]
    B["World model / JEPA<br/>predict future state"]
    C["WAM<br/>align action with future state"]
    D["Robotics system<br/>data, safety, latency, recovery"]

    A --> D
    B --> D
    C --> D
    A -. "needs world consistency" .-> C
    B -. "needs executable policy" .-> C

更一般地说,具身模型有三个必须同时满足的约束:

  • 语义约束:动作要符合语言目标,比如“红色杯子”不能拿错。
  • 几何约束:动作要符合空间结构,比如机械臂路径不能穿过桌面。
  • 物理约束:动作要符合世界动力学,比如推杯子会滑动,抓太轻会掉。

VLA 最擅长把语义和示范动作连接起来;JEPA/world model 更关注几何和物理状态的可预测性;WAM 试图让动作生成天然受未来世界约束。

这也解释了为什么具身智能很难只靠一个“机器人版 GPT”解决。语言模型的 token 预测发生在相对稳定的符号空间里,而机器人的 action token 会立刻改变数据分布。具身智能的核心不是多模态输入,而是行动后的反馈闭环。

读论文时可以用的检查清单

看一篇新的具身模型论文时,我会先问这几个问题:

  • 它预测的是 action、future observation、latent state,还是几者一起?
  • action 是离散 token、连续控制、diffusion trajectory,还是 flow-generated chunk?
  • 训练数据来自单机器人、多机器人、仿真、视频,还是 web-scale VLM 预训练?
  • 模型有没有显式 world model?如果没有,它如何处理失败恢复和 long-horizon task?
  • evaluation 是语言理解成功,还是真实机器人上的 task success?
  • 部署时推理频率、延迟、安全约束在哪里处理?

如果只记一个判断标准,可以记这个:真正的具身模型不只是看懂世界,而是要预测自己的动作会怎样改变世界。

分享