具身智能模型的三条路线：VLA、世界模型与 WAM

sky_io@outlook.com (K4i) — Thu, 18 Jun 2026 10:00:00 +0800

如果大语言模型只需要回答一句话，那么具身智能模型要多回答一个问题：这句话接下来要变成什么动作？

比如你对桌面机器人说：“把红色杯子推到盘子旁边。”模型不只要识别杯子、理解“旁边”，还要决定机械臂下一步往哪里移动、夹爪什么时候闭合、动作失败后如何修正。这里的难点不是多模态本身，而是语言、视觉、物理状态和连续动作之间有闭环：动作会改变世界，新的世界又会改变下一步动作。

World-Model on k4i's blog