LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation

要約

身体化されたエージェントと大規模言語モデル (LLM) の統合により、身体化された命令のフォローに大きな進歩がもたらされました。
特に、LLM の強力な推論機能により、ロボットは、高価な注釈付きのデモンストレーションを行わずに、長期的なタスクを実行できます。
ただし、さまざまなシナリオで言語条件付きロボットの長期的な推論能力をテストするための公開ベンチマークはまだありません。
このギャップを埋めるために、この研究では卓上操作タスクに焦点を当て、色、サイズ、空間、算術、参照にわたるさまざまな長期的な推論の側面をカバーするシミュレーション ベンチマーク \textit{LoHoRavens} をリリースします。
さらに、LLM を使用した長期的な操作タスクには重要なモダリティ橋渡しの問題があります。LLM の閉ループ計画のためのロボットの実行中に観察フィードバックをどのように組み込むかという問題ですが、これについては先行研究ではあまり研究されていません。
我々は、モダリティギャップを埋めるための 2 つの方法、つまり、キャプション生成と、明示的および暗黙的な観察フィードバックを LLM に組み込むための学習可能なインターフェイスをそれぞれ調査します。
これらの方法は、私たちが提案するベンチマークの 2 つのベースラインとして機能します。
実験では、どちらの方法でも一部のタスクを解決するのに苦労していることが示されており、現在の一般的なモデルでは長期的な操作タスクが依然として困難であることを示しています。
私たちは、提案された公開ベンチマークとベースラインが、コミュニティによる長期的な卓上操作タスクのためのより良いモデルの開発に役立つことを期待しています。

要約(オリジナル)

The convergence of embodied agents and large language models (LLMs) has brought significant advancements to embodied instruction following. Particularly, the strong reasoning capabilities of LLMs make it possible for robots to perform long-horizon tasks without expensive annotated demonstrations. However, public benchmarks for testing the long-horizon reasoning capabilities of language-conditioned robots in various scenarios are still missing. To fill this gap, this work focuses on the tabletop manipulation task and releases a simulation benchmark, \textit{LoHoRavens}, which covers various long-horizon reasoning aspects spanning color, size, space, arithmetics and reference. Furthermore, there is a key modality bridging problem for long-horizon manipulation tasks with LLMs: how to incorporate the observation feedback during robot execution for the LLM’s closed-loop planning, which is however less studied by prior work. We investigate two methods of bridging the modality gap: caption generation and learnable interface for incorporating explicit and implicit observation feedback to the LLM, respectively. These methods serve as the two baselines for our proposed benchmark. Experiments show that both methods struggle to solve some tasks, indicating long-horizon manipulation tasks are still challenging for current popular models. We expect the proposed public benchmark and baselines can help the community develop better models for long-horizon tabletop manipulation tasks.

arxiv情報

著者 Shengqiang Zhang,Philipp Wicke,Lütfi Kerem Şenel,Luis Figueredo,Abdeldjallil Naceri,Sami Haddadin,Barbara Plank,Hinrich Schütze
発行日 2023-10-23 12:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク