![]()
来自奥飞斯量子比特的定期消息|公众号Qbitai 如果说视觉让AI看到世界,运动让AI改变世界,那么——Worldvla让AI了解世界。顾名思义,Worldvla 是一个集成了视觉语言动作模型(VLA)和世界模型的统一框架。它由阿里巴巴达摩院、湖畔实验室和浙江大学联合提出。在此框架下,世界模型通过整合对动作和图像的理解来预测未来图像,旨在了解环境的底层物理规律,以提高动作生成的准确性;动作模型根据图像的观察生成后续动作,这不仅有助于视觉理解,而且还逆转了世界模型的视觉再生能力。实验结果表明WorldVLA的性能明显优于独立动作模型和world model,充分体现了两者相辅相成的作用。下面我们来详细看看。在VLA和世界模型统一的今天,虽然VLA和世界模型是分开开发的,但它们的功能限制已经成为限制发展的主要瓶颈: VLA模型:基于预训练的多模态大语言模型(MLLM)构建。虽然能够泛化机器人任务,但仅以动作作为输出,并没有深度集成作为分析的输入,缺乏对动作的全面理解。世界模型:它可以根据当前的观察和动作来预测未来的视觉状态,并理解视觉信息和动态行为。但它不能直接生成动作,其应用仅限于需要明确动作规划的场景。为了解决上述问题,研究团队提出了Worldvla,一种自回归动作世界模型,用于动作统一和图像理解与生成离子。该团队基于 Chameleon 模型启动了它,该模型允许 Worldvla 使用三组独立的标记器来对图像、文本和手势进行编码。图像分割器使用VQ-GAN模型(一种结合矢量体和生成对抗网络的图像生成模型),并引入针对特定图像区域(例如人脸、引人注目的物体等)的感知损失优化。值得一提的是,该分词器的压缩比为16,码本大小为8192。对于256×256的图像,生成256个token;对于 512 × 512 的图像,将生成 1024 个标记。分词器动作将机器人连续动作的每次测量分配给 256 个间隔,间隔宽度根据训练数据集确定。该动作由 7 个标记表示,包括 3 个相对位置、3 个相对角度和 1 个绝对夹具状态。文本分词器使用训练好的BPE分词器,词列表大小为65536,其中8192图像标记和 256 个动作标记。所有文本、手势和图像都被离散化为标记,并以自回归方式进行训练。自回归模型中的标准注意力机制通常使用因果注意力掩模,即只能访问当前 token 的先前信息,但无法获取该 token 的后续信息,如下图(a)所示。然而,这种传统的配置在构造动作块(即许多连续的动作)方面具有显着的缺点。在默认的注意力掩码下,早期操作产生的错误会传播到后续操作,从而导致性能受损。为了解决这个问题,团队提出了一种用于动作生成的替代注意力掩模,如上面的 (b) 所示。该掩码确保当前动作的生成仅依赖于文本和视觉输入,同时保护先前动作的影响。这种设计允许自动注册本质框架来并行生成多个动作,而世界的一部分仍然遵循因果注意力的传统注意力面具,如上面的(c)所示。之后,团队通过融合动作数据和世界数据,联合训练了Worldvla。其中,引入世界数据来增强动作生成能力主要基于三个考虑:1.了解自然环境:世界模型可以通过当前状态预测未来的观测并进行动作,从而学习环境的物理规律。这种理解对于操作任务尤其重要。 2. 行动规避和风险规避:世界模型可以模拟和评估候选行动的潜在结果,有助于避免可能导致不良状态的行动。 3. 准确的动作解析:世界模型需要对动作输入进行准确的解释,这支持动作模型生成采取更有效、更切合实际的行动。此外,动作模型还可以增强视觉理解,进一步支持世界模型的视觉生成。行动模型与世界模型的互助基准测试结果如下表所示。即使没有预训练,世界模型也表现出了比离散化 OpenVLA 模型更好的性能,证明了其架构设计的有效性。此外,模型性能与图像分辨率呈正相关。具体来说,512×512像素的分辨率相比256×256像素的分辨率带来了显着的提升。这种现象主要归因于主干模型的预训练方法,其图像标记器和语言模型的大型组件在 512 × 512 分辨率下进行了优化。同时,更高的分辨率自然可以提供更多的视觉细节信息,这对于需要高O的机器人抓取任务尤为重要。操作精度。动作世界模型有帮助此外,研究还表明,引入世界模型可以显着提高动作模型的性能。世界模型的主要功能是根据当前状态和采取的行动来预测环境状态的变化。这种生成机制促使模型学习系统的底层物理规律,而掌握这一规律是实现抓获等精确操作任务的主要要求。更深入地看,世界模型赋予了系统表象还原的能力:通过预测候选者行动可能产生的后果,为决策过程提供基础信息,从而优化行动选择策略,提高任务成功率。下图中的对比案例直观地体现了这一优势。基线移动模型会直接移动到目标点但不会拾取失败拾取奶酪或瓶子,而Worldvla将继续尝试拾取,直到确认操作成功后才移动到目标位置。行动模型有助于世界模型。在生成质量方面,Worldvla 明显优于 pureworld 模型,尤其是在生成较长的视频序列时。此外,纯世界模型在许多场景中都表现出明显的缺陷:无法成功打开抽屉(A)、移动盘子后碗消失(B)、无法将碗正确放置在炉子上(C)。动作世界模型在这些场景中生成连贯且物理一致的后续状态。主要作者介绍了第一个角色岑峻,于2024年8月以阿里巴巴之星的身份加入阿里巴巴达摩院。毕业于浙江大学,获学士学位,毕业于香港科技大学,获硕士、博士学位。 2023年访问南洋理工大学赴新加坡大学学习半年,并在微软亚洲研究院(MSRA)、上海人工智能实验室、海康威视、阿里巴巴统一实验室实习。关于VLA和World Model的另一件事,小米汽车高级研究总监、首席科学家陈龙也发表了自己的观点:VLA和WM不需要二选一。两者可以结合起来,互相促进。一个负责“抽象思维”,另一个负责“物理感知”。 VLA+WM的结合就是体现智能(AGI)的答案。论文链接:https://t.co/zghyhqqnyfgithub 链接:https://t.co/sxdzguhbl7 返回搜狐查看更多