要約
タイトル:エネルギーベースのモデルによる構成的シーンの再配置のゼロショットプランナー
要約:
– 言語は合成的であり、1つの命令で機械に配置する複数の物体の関係制約を表現できる。
– 本研究の焦点は、トレーニング時に見たことのない長い命令と空間的概念の合成に汎用的な命令式シーン再配置フレームワークである。
– 言語で命令された空間的概念を、相対的な物体配置に対するエネルギー関数で表現することを提案する。
– 言語パーサは命令を対応するエネルギー関数にマッピングし、オープンボキャブラリの視覚言語モデルはそれらの引数をシーン内の関連する物体に基づいて説明する。
– 命令ごとに1つずつのエネルギー関数の合計で勾配降下法を行い、目標シーン構成を生成する。
– 次に、ローカルなビジョンベースのポリシーを使用して、推定された目標位置に物体を移動させる。
– 本モデルは、既存の命令指導型操作ベンチマーク、および本研究で導入した合成的命令のベンチマークでテストし、シミュレーション上および実際の世界で高度に合成的な命令をゼロショットで実行できることを示した。ランギャージ-トゥ-アクションの反応的なポリシーや、大きな言語モデルプランナーを遥かに上回る性能を発揮し、特に複数の空間的概念の合成を含む長い命令の場合に優れた結果を示した。
要約(オリジナル)
Language is compositional; an instruction can express multiple relation constraints to hold among objects in a scene that a robot is tasked to rearrange. Our focus in this work is an instructable scene rearranging framework that generalizes to longer instructions and to spatial concept compositions never seen at training time. We propose to represent language-instructed spatial concepts with energy functions over relative object arrangements. A language parser maps instructions to corresponding energy functions and an open-vocabulary visual-language model grounds their arguments to relevant objects in the scene. We generate goal scene configurations by gradient descent on the sum of energy functions, one per language predicate in the instruction. Local vision-based policies then relocate objects to the inferred goal locations. We test our model on established instruction-guided manipulation benchmarks, as well as benchmarks of compositional instructions we introduce. We show our model can execute highly compositional instructions zero-shot in simulation and in the real world. It outperforms language-to-action reactive policies and Large Language Model planners by a large margin, especially for long instructions that involve compositions of multiple spatial concepts.
arxiv情報
著者 | Nikolaos Gkanatsios,Ayush Jain,Zhou Xian,Yunchu Zhang,Christopher Atkeson,Katerina Fragkiadaki |
発行日 | 2023-04-27 17:55:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI