首页 > 产品中心 > 扫地机

ICCV涌现无人驾驶新范式：统一世界模型VLA用训练闭环迈向L4

来源：淘金网官网发布时间：2025-11-12 14:12:58

产品描述

在端到端一统江湖但数据瓶颈开始成为新挑战后，必须转向强化学习，必须把云端生成式世界模型作为新基座。

春江水暖，异口同声。特斯拉和理想汽车，都在AI顶会现场分享着最新实践真知。

特斯拉无人驾驶副总裁Ashok Elluswamy在演讲中透露，当前特斯拉正在用世界模拟器来评估车端模型。几乎同时，理想VLA模型负责人詹锟也围绕世界模型，在具身智能研讨会做了题为《World Model：Evolving from Data Closed-loop to Training Closed-loop》（世界模型让我们从数据闭环走向训练闭环）的分享。

而这种闭环的构建方法和背后原因，詹锟也在会后更进一步的对话中分享了理想的思考和实践。

在ICCV现场，理想在开篇就提出，无人驾驶技术和大模型一样，都进入了下半场。为什么这么说？

首先回忆一下上半场，端到端架构统一无人驾驶的技术栈，释放了Scaling Law的潜力，让AI能力快速提高。

但理想很快发现，AI基于模仿学习只能学到数据的中等水准，难以超越人类司机的能力，技术范式需要改变。几乎同时，大规模算力基础设施和高保真仿真环境技术也在快速成熟，为范式迁移创造了条件。于是理想决定从数据闭环迈向训练闭环。

数据闭环大家都很熟悉了，就是数据采集、模型训练、评估和部署的循环，但这无法覆盖到一些边缘场景。

训练闭环则是在此基础上，让模型不断通过环境生成和环境反馈来迭代，以此来实现设定的训练目标。

具体实现方法如下：理想在云端构建了一套世界模型训练环境，来训练具备先验知识和驾驶能力的车端VLA模型。这是全球首个将世界模型与强化学习闭环落地于量产无人驾驶系统的完整架构。

由于行业对世界模型的定义不一样，这里需要说明一下，理想所说的世界模型是一个全面的系统，包括环境的构建、智能体的构建、反馈的构建以及场景的多种推演世界模型是理想此次在ICCV分享的核心内容，据介绍该系统主要具备三大能力：

首先是区域级别的仿真和评估，这是车端VLA能进行长时序拟真评估的关键。据介绍，理想目前采用重建和生成结合的仿真路线。

因为在理想看来，重建和生成各具优势。重建能把操作对象完美还原，稳定性更好，但一般输出的是静态结果。

而生成则能输出动态的变化信息，能够获得与操作对象完全不同的图像，泛化性更强，但结果不可控。

所以理想决定将两者结合进行仿真，与合作伙伴产出的研究成果相继被计算机视觉三大顶会收录。

比如理想此前参与的首个无人驾驶3DGS街景重建算法Street Gaussians，该工作被顶会ECCV 2024收录。

Hierarchy UGP是业内首个大规模无人驾驶重建模型，在作者专有的数据集和公开的Waymo数据集上都实现了SOTA。

该模型分为根、子场景和图元三层。其中根层是入口，然后子场景层将空间进一步划分，并提取出各种元素。最后图元层用定义在4D空间的统一高斯图元（Unified Gaussian Primitive）将元素建模。这样的解决方法可以同时对刚性和非刚性运动重建。

以上两项成果主要围绕重建工作，此外在重建和生成结合方向上，理想还联合GigaAI提出基于补充生成新视角的重建范式ReconDreamer，相关成果入选了今年的CVPR。

尽管过去在重建方面取得了不错的成绩，但詹锟认为由于生成方式能低成本、大规模生成边缘场景，而且数据很多样，所以未来的仿真工作中，重建的占比将慢慢的变少，对应地生成的占比慢慢的变多，而且该趋势不可逆。

探讨完世界模型的第一层应用仿真，再往下来看合成全新数据能力，可以构建多样的场景集，让场景的数据均衡分布，最终实现更全面的评估，提高模型性能。

在理想看来，合成数据主要有场景编辑、迁移和全场景生成这三层应用。这项能力让理想的数据更全面，从下图中能够准确的看出，过去依靠采集方式获取的数据（上半部分），集中在晴天、普通道路和普通车辆等简单场景，而现在与合成的数据结合后（下半部分），覆盖场景更广、极端案例更多、种类更为复杂，对应地模型能得到更全面的提升。