VLA与WAM的路线之争......

张开发
2026/6/29 3:17:48 15 分钟阅读
VLA与WAM的路线之争......
点击下方卡片关注“具身智能之心”公众号具身智能的发展始终围绕着一个朴素却深刻的目标让机器人真正理解我们所处的物理世界并用灵活的动作与世界交互。早几年VLA视觉-语言-动作模型的出现曾是行业的一大突破。它依托海量图文数据训练出的语义优势让机器人第一次能听懂复杂指令、认出从未见过的物体甚至完成简单的拾取、摆放动作彻底改变了机器人 “只会执行固定程序” 的刻板印象。那时很多人以为沿着 VLA 的路线持续优化就能一步步逼近通用机器人的理想。但实践很快给出了答案VLA 能精准识别 Taylor Swift 的脸却解不开一根缠绕的鞋带能区分杯子和盘子却不知道怎么把液体从水壶倒进杯子而不洒出。它懂 “是什么”却不懂 “世界怎么动”—— 物理因果性的缺失、对昂贵机器人标注数据的依赖、跨场景泛化的脆弱渐渐成为这一范式难以逾越的天花板。就在行业开始思考 “下一步该往哪走” 时WAM世界动作模型带着视频预训练的核心思路悄然崛起。那些包含时间流动、物体碰撞、动作轨迹的视频数据仿佛为机器人打开了一扇新的大门——从最初简单的 “用视频补物理短板”到后来视频与动作的深度融合再到如今一个模型集成多种能力的统一化形态WAM 正在用自己的节奏重构具身智能的技术逻辑。下面我们着重聚焦几篇领域核心文献慢慢梳理这场从 VLA 到 WAM 的技术迭代。没有复杂的公式堆砌只聚焦 “为什么迭代”“迭代了什么”“迭代到了哪里”看看具身智能是如何一步步跳出瓶颈走向更贴近现实需求的未来。更多内容也欢迎加入我们的具身智能之心知识星球和近3000名成员一起交流阶段 1VLA—— 曾是主流却困在 “能认不会做” 的瓶颈里刚开始了解具身智能时VLA视觉-语言-动作模型是绕不开的存在它算是早期的 “明星范式”核心思路其实很简单靠海量图文数据训练出的 VLM视觉-语言模型做底座再用机器人动作数据微调让模型能听懂指令、识别物体进而输出动作本质就是实现 “指令 视觉观测→动作” 的单一映射。下面是两篇最具代表性的文献《RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》Google DeepMind, 2023这篇应该是 VLA 的 “开山标杆” 了Google DeepMind 首次把 PaLM-E 这种大模型的语义优势和机器人动作结合起来核心是将 VLM 的图文表征与机器人关节角度动作做对齐微调实现了 “指令→动作” 的端到端映射。最让我印象深的是它能跨物体泛化比如没见过的杯子也能根据指令拿起来真正实现了具身智能从 0 到 1 的突破。但短板也很明显看完实验细节才发现它只懂 “什么是什么”不懂 “世界怎么动”—— 比如让它叠衣服、用陌生工具就彻底 “罢工” 了核心原因是它没有建模物理因果关系无法捕捉物体接触、变形的动态规律这也为后来 WAM 的出现埋下了伏笔。《: A vision-language-action model with open-world generalization》Physical Intelligence, 2025这篇是 VLA 规模化训练的代表Anthropic 团队用了海量互联网图文 机器人轨迹数据采用 “图文预训练 机器人数据微调” 的两阶段训练策略按理说性能应该大幅提升但实验数据却很真实在没见过的多样化任务中它的任务进度只有 27.4%过拟合特别严重而且换个机器人本体就得重新采集海量数据训练核心问题是它的动作表征和特定机器人强绑定缺乏通用的物理先验。这两篇文献看下来让人直观感受是VLA 解决了 “机器人能听懂、能认出” 的基础问题但 “物理理解缺失” 这个天花板它始终没能突破也让行业开始思考这条路或许不是最优解。就像我们想让机器人做饭它能认出锅碗瓢盆却不知道怎么开火、怎么翻炒这就是 VLA 的尴尬之处。阶段 2WAM 萌芽——用视频补短板算是 “摸着石头过河”既然 VLA 的问题出在 “不懂物理动态”那怎么才能让模型学会 “世界怎么动”研究者们想到了一个很自然的办法——用视频数据。毕竟视频里有时间连续性有物体的运动轨迹、接触变形这些都是静态图文给不了的物理知识而 WAM世界动作模型的萌芽就源于这个简单却关键的思路。这一阶段的 WAM更像是 “给 VLA 加了个视频底座”还没实现视频与动作的深度融合算是初步探索但也让我看到了新的希望《UniPi: Learning Universal Policies via Text-Guided Video Generation》MIT、谷歌等联合团队2023这篇应该是 WAM 的 “开山之作”MIT 和谷歌的联合团队首次提出 “策略即视频” 的思路——核心是用文本引导的视频扩散模型生成未来动作的像素级视频轨迹再通过简单的逆动力学模型IDM从视频像素中反推出机器人的关节动作。我觉得这个想法特别巧妙它第一次证明了 “视频预训练能补全物理理解短板”模型也能实现跨环境迁移但缺点也很突出视频和动作是完全解耦的视频生成的计算量极大且长时间序列下视频质量会退化导致动作控制精度不足细粒度控制更是谈不上算是典型的 “补短板” 式探索摸着石头过河。《LAPA: Latent Action Pretraining from Videos》Seonghyeon Ye, Joel Jang 等KAIST、华盛顿大学、微软研究院、NVIDIA 等联合团队2025ICLR 会议论文这篇真的刷新了我对 “无标注数据利用” 的认知它完全跳出了 “必须用机器人标注数据” 的思维定式核心是一套三阶段的无监督预训练方案逻辑闭环又巧妙第一步先靠 VQ-VAE 训练一个动作量化模型从连续视频帧中无监督学习离散的 “ latent action隐式动作”—— 相当于给物理世界的基础动作 “分词”不用预设关节角度、末端执行器位置这些先验第二步用预训练 VLM 做行为克隆根据视频观测和任务描述预测这些隐式动作全程不用任何真实机器人动作标签第三步只需要用小规模带标签的机器人数据微调就能把隐式动作映射成机器人能执行的实际动作。它的突破点不止一个一是泛化能力极强哪怕预训练只用人类操作视频比如日常物品互动的视频和机器人本体差异巨大微调后在 SIMPLER 仿真和真实机器人任务上居然能超过用专业机器人数据集Bridgev2训练的 OpenVLA二是效率惊人预训练只用 272 个 H100 GPU 小时是 OpenVLA的 30-40 倍却在真实世界任务中平均成功率比 OpenVLA 高 6.22%三是跨场景迁移稳健不管是跨任务、跨环境还是跨机器人本体隐式动作在语义空间里都能保持一致性——比如不同机械臂的 “移动”“旋转”隐式表示高度重合这意味着互联网上的海量视频都能成为机器人的 “物理知识教材”。更意外的是它还能当简易世界模型用把预测出的隐式动作输入解码器就能重建未来视频帧相当于能 “想象” 动作带来的结果为后续闭环控制打下了基础。这篇工作彻底证明机器人学习不一定非要依赖昂贵的标注数据互联网视频里的物理动态信息只要用对方法就能成为突破 VLA 瓶颈的关键。这一阶段的 WAM虽然还有很多不足但已经明确了核心方向视频预训练就是解决 VLA 短板的关键。就像给不懂做饭的机器人看了很多烹饪视频它慢慢知道了开火、翻炒的基本逻辑虽然还做不好但已经迈出了重要一步。阶段 3WAM 成熟——视频与动作深度融合终于 “能做好” 了如果说萌芽阶段的 WAM 是 “能做”那成熟阶段的 WAM就是 “能做好”。研究者们不再满足于 “视频和动作各做各的”而是开始探索怎么让两者深度融合要么优化分开的方案、减少信息损失要么直接端到端训练让一套模型同时搞定视频预测和动作生成这一阶段的技术成熟度比萌芽阶段提升了一大截。下面三篇不同方向的文献刚好覆盖了这两种思路分享给大家每篇都加一点点易懂的技术细节《mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs》mimic robotics、Microsoft Zurich、ETH Zurich 等2025这篇是 “分开优化” 的代表它没有像 UniPi 那样生成完整的视频核心优化是让视频骨干模型Cosmos-Predict2沿扩散流轨迹停在中间噪声水平既保留物理动态信息又规避了全量视频生成的计算开销同时用 “冻结视频骨干 轻量级动作解码器” 的两阶段训练梯度不回传让视频和动作的配合更流畅。最让我惊讶的是它的实验数据样本效率是 VLA 的 10 倍在 SIMPLER-Bridge 数据集上的成功率是 OpenVLA 的 3 倍多。这也印证了一个核心结论——视频预测质量直接决定动作控制的性能只要视频够准动作就不会差。《PAD: Prediction with Action: Visual Policy Learning via Joint Denoising Process》UC Berkeley, 2024这篇是端到端训练的 “基础之作”UC Berkeley 的团队提出了一个很关键的想法视频预测和动作生成可以共享同一套 DiT 骨干网络核心是通过联合去噪动力学从噪声中同时重建未来的视频帧和动作序列实现两者的原生对齐。这样做的好处很明显视频和动作能精准对齐不会出现 “视频里动作是向左机器人却向右动” 的情况也彻底解决了分开方案的信息损失问题。而且它还支持 “有动作标注的机器人数据” 和 “无动作标注的纯视频数据” 联合训练为后来利用海量互联网视频打下了架构基础。《Vidar: Embodied Video Diffusion Model for Generalist Manipulation》清华大学2025这篇是落地性最强的团队聚焦于双臂操作这种复杂场景核心优化是用 Masked IDM 学习与动作相关的像素掩码过滤无关像素干扰优化了视频与动作的融合逻辑。最让我震撼的是它的样本效率只用 20 分钟的人类示范数据就在 50 个任务上达到了 65.8% 的成功率而这个数据量只有的 1/1200。看完这三篇文献我真切感受到WAM 已经从 “实验室探索” 走进了 “工程落地”。它不仅解决了 VLA 的物理理解短板还大幅提升了样本效率让机器人能真正灵活地完成复杂任务不再是 “只会认、不会做” 的 “花瓶”。阶段 4WAM 进阶——一个模型搞定四件事离通用机器人更近了成熟阶段的 WAM 已经很优秀了但研究者们并没有停下脚步而是朝着 “通用机器人” 的目标迈进——让一个模型同时实现正向动力学预测未来状态、逆向动力学从视频反推动作、策略推理输出动作、视频生成四件事彻底打破数据边界让模型能从海量互联网纯视频中学习实现多任务互促提升。这一阶段的三篇文献每一篇都让我眼前一亮也让我看到了具身智能的未来《Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets》华盛顿大学、丰田研究所等2025这篇是统一化 WAM 的标杆设计特别简洁却极具巧思核心是让视频和动作的扩散时间步独立采样不用复杂修改架构通过简单的遮罩逻辑一个模型就能灵活切换四种任务模式——想让它输出动作就调策略推理模式想让它预测未来就调正向动力学模式。最厉害的是它的 “视频白嫖” 策略能把没有动作标注的纯视频当成 “隐藏动作” 来训练彻底打破了对机器人数据的依赖。看完这篇我才明白原来模型可以这么 “聪明”不用专门标注就能从互联网视频里学懂世界的规律。《DreamZero: World Action Models are Zero-shot Policies》NVIDIA GEAR 实验室2026这篇算是目前 WAM 的 “集大成者”NVIDIA 的团队用 14B 参数的视频扩散模型做了端到端的统一训练核心是采用自回归架构保持原生帧率解决了双向扩散的视频-动作对齐问题零样本泛化能力是顶级 VLA 的 2 倍以上。最让我佩服的是它的跨本体迁移效率只用 30 分钟的 “玩耍数据”就能从一款机器人适配到另一款全新的机器人而且还能保留零样本泛化能力。更关键的是它解决了统一化模型 “算力高、推理慢” 的痛点通过异步执行、CFG 并行等六层优化栈让 14B 模型在 2 块 GB200 上实现 7Hz 实时控制真正具备了规模化落地的可能。《Motus: A Unified Latent Action World Model》清华 TSAIL 实验室2025这篇是性能标杆清华大学毕弘喆、谭恒楷等研究者领衔的作品核心创新是 “用光流提取动作趋势”—— 通过 DPFlow 算法从 YouTube 烹饪视频、人类操作视频里提取像素级的运动轨迹再用卷积 VAE 压缩为本体无关的隐式动作让模型能适配不同机器人。它的实验数据特别惊艳在 50 个任务的训练中任务越多成功率越高最终达到 87.0%比高出 45 个百分点在真实机器人的咖啡研磨任务中成功率更是达到 92%而只有 8%。这也证明了统一化模型学到的是通用的世界知识而不是单一任务的动作这才是通用机器人的核心。这一阶段的 WAM已经彻底打破了 VLA 的所有瓶颈让机器人从 “基础操作” 走向 “灵巧操作”也让我看到了 “互联网视频驱动通用机器人” 的可能——未来或许不用再花大量成本采集机器人数据只要有足够的互联网视频机器人就能学会各种技能。回望 VLA 与 WAM 的路线之争梳理从 VLA 到 WAM 的四大进化阶段对两者的 “路线之争” 可形成更清晰的认知这场争论从来不是 “非此即彼” 的零和博弈而是技术迭代过程中 “补短板、强融合” 的必然选择。VLA 作为早期主流路线核心价值在于实现了具身智能 “从 0 到 1” 的突破——依托 VLM 的语义优势让机器人听懂指令、识别物体走出了 “机器人只会执行固定动作” 的困境。但它 “重语义、轻物理” 的先天缺陷注定无法支撑机器人向 “灵巧操作、通用智能” 进阶物理因果性缺失、数据依赖严重、泛化能力弱这些都是其绕不开的瓶颈。WAM 的崛起本质上并非 “推翻 VLA”而是 “补齐 VLA 的短板”—— 以视频预训练为核心引入物理动态先验从萌芽阶段的 “视频与动作解耦”到成熟阶段的 “深度融合”再到进阶阶段的 “多能力统一”一步步解决 VLA 的痛点同时保留了 VLA 的语义理解优势让机器人既能 “懂是什么”也能 “懂怎么动”。当然WAM 并非完美无缺比如高端模型的部署成本仍较高VAE 的信息瓶颈尚未完全突破高动态场景的实时性还有提升空间但这并不影响它成为具身智能的未来方向。反观 VLA也未被彻底淘汰其轻量化优势在低算力、基础操作场景中依然具备不可替代的价值未来两者将是 “互补共生” 的关系而非对立。这场路线之争最终的赢家不是 VLA也不是 WAM而是具身智能本身——从 VLA 的 “语义驱动”到 WAM 的 “语义 物理双驱动”从 “依赖机器人数据” 到 “利用全量视频数据”技术的每一步迭代都在朝着 “让机器人真正懂世界、会动手” 的核心目标迈进。END推荐阅读

更多文章