Energy-based Models are Zero-Shot Planners for Compositional Scene Rearrangement

要約

言語は構成的なものです。
命令は、ロボットが再配置する任務を負っているシーン内のオブジェクト間で保持する複数の関係制約を表現できます。
この研究で私たちが焦点を当てているのは、より長い指示と、トレーニング時には決して見られなかった空間概念の構成を一般化する、指示可能なシーン再配置フレームワークです。
私たちは、相対的なオブジェクトの配置に対するエネルギー関数を使用して、言語によって指示された空間概念を表現することを提案します。
言語パーサーは命令を対応するエネルギー関数にマッピングし、オープン語彙の視覚言語モデルはその引数をシーン内の関連オブジェクトに根拠付けします。
命令内の言語述語ごとに 1 つずつ、エネルギー関数の合計に対する勾配降下法によってゴール シーンの構成を生成します。
次に、ローカル ビジョン ベースのポリシーにより、推定された目標位置にオブジェクトが再配置されます。
私たちは、確立された命令ガイド付き操作ベンチマークと、導入した合成命令のベンチマークでモデルをテストします。
私たちのモデルがシミュレーションと現実世界で高度に構成された命令をゼロショットで実行できることを示します。
特に複数の空間概念の構成を含む長い命令の場合、言語からアクションへのリアクティブ ポリシーや大規模言語モデル プランナーよりも優れたパフォーマンスを発揮します。
シミュレーションおよび実際のロボット実行ビデオ、およびコードとデータセットは、Web サイト (https://ebmplanner.github.io) で公開されています。

要約(オリジナル)

Language is compositional; an instruction can express multiple relation constraints to hold among objects in a scene that a robot is tasked to rearrange. Our focus in this work is an instructable scene-rearranging framework that generalizes to longer instructions and to spatial concept compositions never seen at training time. We propose to represent language-instructed spatial concepts with energy functions over relative object arrangements. A language parser maps instructions to corresponding energy functions and an open-vocabulary visual-language model grounds their arguments to relevant objects in the scene. We generate goal scene configurations by gradient descent on the sum of energy functions, one per language predicate in the instruction. Local vision-based policies then re-locate objects to the inferred goal locations. We test our model on established instruction-guided manipulation benchmarks, as well as benchmarks of compositional instructions we introduce. We show our model can execute highly compositional instructions zero-shot in simulation and in the real world. It outperforms language-to-action reactive policies and Large Language Model planners by a large margin, especially for long instructions that involve compositions of multiple spatial concepts. Simulation and real-world robot execution videos, as well as our code and datasets are publicly available on our website: https://ebmplanner.github.io.

arxiv情報

著者 Nikolaos Gkanatsios,Ayush Jain,Zhou Xian,Yunchu Zhang,Christopher Atkeson,Katerina Fragkiadaki
発行日 2023-06-12 21:13:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク