零样本操控机器人,李飞飞团队新作!
大数据文摘授权转载自夕小瑶科技说作者 | 智商掉了一地、ZenMoore
这个世界是三维立体的,那么具身 AI 也应当在 3D 世界中运作。如何利用基础模型在机器人操作中进行自然场景泛化?斯坦福大学李飞飞团队的机器人新作来咯~
他们提出的 VoxPoser 从大型语言模型和视觉-语言模型中提取机会和约束,以构建 3D 值地图,以供运动规划器使用,用于零样本合成日常操纵任务的轨迹,从而实现在真实世界中的零样本机器人操纵。
论文题目:VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
论文链接:https://voxposer.github.io/voxposer.pdf
博客地址:https://voxposer.github.io/
本文的研究目标是在给定开放式指令集和开放式对象集的情况下,为各种操纵任务合成机器人轨迹,即密集的六自由度末端执行器航点序列。大型语言模型被证明拥有丰富的可操作知识,可以通过推理和规划来提取用于机器人操纵的信息。尽管取得了一定进展,但大多数方法仍依赖于预定义的运动基元来进行与环境的物理交互,这成为目前研究的主要瓶颈。
由于数据对于泛化至关重要,但机器人数据稀缺且昂贵。因此为了避免在标记数据上进行策略训练,VoxPoser 的研究工作中采用 LLM+VLM 的方法,利用生成的代码来构建 3D 值地图。随后,运动规划器根据这些地图合成具备六个自由度的动作,且所有这些操作均不需要进行任何训练或使用基本操作。
如图 1 所示,VoxPoser 可以在真实世界的操纵任务中零样本合成轨迹,对于自由形式语言指令的开放集和对象的开放集都能适用。
▲图1 VoxPoser 从 LLM 中提取与语言相关的机会和约束,并使用 VLM 将它们与感知空间进行关联,用代码接口进行操作,而无需对任何组件进行额外训练
VoxPoser
如图 2 所示是 VoxPoser 的框架概览。给定环境的 RGB-D 观测和语言指令,其中(a)部分为 LLM 生成代码与 VLM 交互,产生一系列在机器人的观测空间中建立的 3D 机会图和约束图(统称为值图),然后(b)部分为组合的值图作为运动规划器的目标函数,用于合成机器人操纵的轨迹。整个过程不涉及任何额外的训练。
▲图2 VoxPoser 框架概览
如下面视频中所示,根据自由形式的指令和 RGB-D 观测,LLM 协调感知调用 VLM 和数组操作,为体素地图分配连续值,显示出“何处行动”和“如何行动”。此外,它还对旋转、速度和夹爪动作进行参数化,以实现完整的 SE(3) 轨迹。
实验
日常操作任务
作者进行了大量的实验,在真实世界的日常操纵任务中对 VoxPoser 进行了验证,包括关节式和可变形物体的操纵。下面视频的所有结果都是通过零样本执行进行合成的。
真实领域和模拟领域的实验结果分别如表 1 和表 2 所示:
▲表1 真实世界领域的平均成功率
▲表2 模拟域中的平均成功率
尽管在接触丰富的任务中存在一定的局限性,但 VoxPoser 可以作为先验知识,用于从在线交互中高效学习。从下表 3 的实验结果中可以得到,与没有先验知识的探索相比,VoxPoser 能够在不到 3 分钟的时间内学会打开各种具有复杂结构的关节物体。这种先验知识的应用使得学习过程更加高效,并且为机器人在面对具有复杂结构的物体时提供了更好的操控能力。
▲表3 VoxPoser 进行零样本合成轨迹
错误分类如图 3 所示,尽管 VoxPoser 依赖于多个组件,但它有效地减少了在指定目标和数值时的错误。
▲图3 VoxPoser 和 Baseline 的错误分类比较
如图 4 是在真实世界环境中可视化组合的 3D 值地图和轨迹,其中:
顶部行展示了当“感兴趣的实体”为对象或部件时,值地图如何引导它们朝向目标位置。
底部两行展示了当“感兴趣的实体”为机器人末端执行器时的任务。最底部的任务涉及两个阶段,也由 LLM 协调完成。
▲图4 真实世界环境中可视化组合的 3D 值地图和轨迹
新兴的行为能力
如图 5 所示,机器人有以下一些比较新颖的能力:
估算物理属性:给定两个未知质量的方块,机器人被要求使用现有工具进行物理实验,确定哪个方块更重。
常识性行为推理:在摆桌子的任务中,用户可以指定行为偏好,比如“我是左撇子”,这要求机器人在任务环境中理解其含义。
细粒度语言纠正:对于需要高精度的任务,比如“用盖子盖住茶壶”,用户可以给机器人提供精确的指令,比如“你离目标有1厘米的偏差”。
多步骤视觉程序:在任务“精确地将抽屉打开一半”的情况下,由于物体模型不可用,信息不足,机器人可以根据视觉反馈提出多步骤的操纵策略。首先完全打开抽屉并记录把手的位移,然后将其关闭到中间位置以满足要求。
▲图5 VoxPoser 的新兴行为能力展
如下面视频中所做的那样,只需将物体抛掷,由于可以通过视觉反馈实时重新规划动作,因此 VoxPoser 对干扰具有鲁棒性。3D 值地图始终根据最新的观测结果进行更新,使机器人能够从意外错误中恢复过来。
由于语言模型的输出在整个任务过程中保持不变,可以缓存其输出并使用闭环视觉反馈重新评估生成的代码,从而实现使用 MPC 进行快速重规划,这也使得 VoxPoser 对在线干扰具有鲁棒性。
小结
本文的作者提出了一个通用的机器人操纵框架 VoxPoser。目前还存在着一定的局限性,例如:
它依赖于外部感知模块,在需要整体视觉推理或对细粒度物体几何形状理解的任务中具有局限性。
虽然适用于高效的动力学学习,但仍需要通用的动力学模型来实现具有相同泛化水平的接触丰富任务。
运动规划器仅考虑末端执行器轨迹,而整臂规划也是可行的,可能会是更好的设计选择。
需要进行手工提示工程来处理 LLM。
尽管依赖外部感知模块可能限制了整体视觉推理和细粒度物体几何形状理解的任务,但最近多模态 LLM 的成功为 VoxPoser 提供了直接的视觉关联的可能性,这将进一步提高其性能。此外,对齐和提示方法的应用可以改善合成的值地图质量,减轻提示工程的工作量。
虽然存在一些限制,但 VoxPoser 作为一个通用的机器人操纵框架仍然具备巨大的潜力,这也为未来的机器人操纵研究和发展,以及实现更智能、更灵活、适应性更强的机器人系统指出了新方向。期待在各种不断更新的大模型加持下,能够推动机器人系统的相关研究迈出新的一大步。