李飞飞团队提议ReKep，让机器东谈主具备空间智能，还能整合GPT-4o

发布日期：2024-09-04 09:41 点击次数：62

机器之心报谈

裁剪：Panda

视觉与机器东谈主学习的深度交融。

当两只机器手丝滑地相互合作叠穿戴、倒茶、将鞋子打包时，加上最近老上面条的 1X 东谈主形机器东谈主 NEO，你可能会产生一种嗅觉：咱们似乎驱动插足机器东谈主时间了。

事实上，这些丝滑动作恰是先进机器东谈主技艺 + 精妙框架联想 + 大模子的居品。

咱们知谈，有用的机器东谈主通常需要与环境进行复杂精妙的交互，而环境则可被暗意成空间域和时刻域上的敛迹。

举个例子，要是要让机器东谈主倒茶，那么机器东谈主率先需要收拢茶壶手柄并使之保执矗立，不泼洒出茶水，然后安适出动，一直到让壶口与杯口对皆，之后以一定角度歪斜茶壶。这里，敛迹条款不仅包含中间指标（如对皆壶口与杯口），还包括过渡状况（如保执茶壶矗立）；它们共同决定了机器东谈主联系于环境的动作的空间、时刻和其它组合要求。

可是，现实宇宙纷纷复杂，何如构建这些敛迹是一个极具挑战性的问题。

近日，李飞飞团队在这一不绝概念取得了一个冲破，提议了关联要津点敛迹（ReKep/Relational Keypoint Constraints）。毛糙来说，该模范等于将任务暗意成一个关联要津点序列。何况，这套框架还能很好地与 GPT-4o 等多模态大模子很好地整合。从演示视频来看，这种模范的发扬相当可以。该团队也已发布关联代码。本文一算作 Wenlong Huang。

论文标题：ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation论文地址：https://rekep-robot.github.io/rekep.pdf技俩网站：https://rekep-robot.github.io代码地址：https://github.com/huangwl18/ReKep

李飞飞暗意，该职责展示了视觉与机器东谈主学习的更深档次交融！固然论文中莫得说起李飞飞在本年 5 年头创立的专注空间智能的 AI 公司 World Labs，但 ReKep 彰着在空间智能方面大有后劲。

模范

关联要津点敛迹（ReKep）

使用 ReKep 将操作任务界说成一个敛迹优化问题

使用 ReKep，可将机器东谈主操作任务调遣成一个触及子指标和旅途的敛迹优化问题。这里将终端实行器姿势记为 ∈ SE (3)。为了实行操作任务，这里的指标是获取合座的破裂时刻轨迹 _{1:T}：

也等于说，关于每个阶段 i，该优化问题的指标是：基于给定的 ReKep 敛迹集和扶持本钱，找到一个终端实行器姿势算作下一个子指标（过甚关联时刻），以及竣事该子指标的姿势序列。该公式可被视为轨迹优化中的 direct shooting。

领悟和算法实例化

为了能及时地求解上述公式 1，该团队采取对合座问题进行领悟，仅针对下一个子指标和达成该子指标的相应旅途进行优化。算法 1 给出了该过程的伪代码。

其中子指标问题的求解公式为：

旅途问题的求解公式为：

回溯

现实环境复杂多变，偶然候在职务进行过程中，上一阶段的子指标敛迹可能不再成立（比如倒茶时茶杯被拿走了），这时候需要从头缱绻。该团队的作念法是查验旅途是否出现问题。要是发现问题，就迭代式地回溯到前一阶段。

要津点的前向模子

为了求解 2 和 3 式，该团队使用了一个前向模子 h，其可在优化过程中凭据 ∆ 臆测 ∆。具体来说，给定终端实行器姿势 ∆ 的变化，通过欺诈换取的相对刚性变换 ′[grasped] = T_{∆}・[grasped] 来运筹帷幄要津点位置的变化，同期假定其它要津点保执静止。

要津点提议和 ReKep 生成

为了让该系统能在现实情况下开脱地实行多样任务，该团队还用上了大模子！具体来说，他们使用大型视觉模子和视觉 - 话语模子联想了一套管谈历程来竣事要津点提议和 ReKep 生成。

要津点提议

给定一张 RGB 图像，率先用 DINOv2 索取图块层面的特征 F_patch。然后实行双线性插值以将特征上采样到原始图像大小，F_interp。为了确保提议涵盖场景中的统统关联物体，他们使用了 Segment Anything（SAM）来索取场景中的统统掩码 M = {m_1, m_2, ... , m_n}。

关于每个掩码 j，使用 k 均值（k = 5）和余弦相似度度量对掩码特征 F_interp [m_j] 进行聚类。聚类的质心用作候选要津点，再使用经过校准的 RGB-D 相机将其投影到宇宙坐标 ℝ^3。距离候选要津点 8cm 以内的其它候选将被过滤掉。总体而言，该团队发现此过程可以识别多数细粒度且语义上专门旨的对象区域。

ReKep 生成

得回候选要津点后，再将它们相通在原始 RGB 图像上，并标注数字。纠合具体任务的话语请示，再查询 GPT-4o 以生成所需阶段的数目以及每个阶段 i 对应的子指标敛迹和旅途敛迹。

实验

该团队通过实验对这套敛迹联想进行了考据，并尝试解答了以下三个问题：

1. 该框架自动构建和合成操作行动的发扬何如？

2. 该系统泛化到新物体和操作计谋的后果何如？

3. 各个组件可能何如导致系统故障？

使用 ReKep 操作两台机器臂

他们通过一系列任务查验了该系统的多阶段（m）、田野 / 实用场景（w）、双手（b）和反映（r）行动。这些任务包括倒茶 (m, w, r)、摆放竹帛 (w)、回收罐子 (w)、给盒子贴胶带 (w, r)、叠穿戴 (b)、装鞋子 (b) 和相助折叠 (b, r)。

抑制见表 1，这里申报的是告捷率数据。

合座而言，就算莫得提供特定于任务的数据或环境模子，新提议的系统也概况构建出正确的敛迹并在非结构化环境中实行它们。值得持重的是，ReKep 可以灵验地责罚每个任务的中枢贫寒。

底下是一些现实实行过程的动画：

操作计谋的泛化

该团队基于叠穿戴任务探索了新计谋的泛化性能。简而言之，等于看这套系统能不成叠不同样的穿戴 —— 这需要几何和知识推理。

这里使用了 GPT-4o，提词仅包含通用请示，莫得高下文示例。「计谋告捷」是指生成的 ReKep 可行，「实行告捷」则斟酌的是每种穿戴的给定可行计谋的系统告捷率。

抑制很兴味兴味。可以看到该系统为不同穿戴秉承了不同的计谋，其中一些叠穿戴模范与东谈主类常用的模范同样。

分析系统失实

该框架的联想是模块化的，因此很肤浅分析系统失实。该团队以东谈主工神色查验了表 1 实验中际遇的故障案例，然后基于此运筹帷幄了模块导致失实的可能性，同期辩论了它们在管谈历程中的时刻依赖关联。抑制见图 5。

可以看到，在不同模块中，要津点追踪器产生的失实最多，因为通常和间或出现的守密让系统很难进行准确追踪。

海南誓占地水泥股份有限公司

李飞飞团队提议ReKep，让机器东谈主具备空间智能，还能整合GPT-4o