Task and Motion Planning with Large Language Models for Object Rearrangement

要約

複数のオブジェクトの再配置は、サービス ロボットにとって重要なスキルであり、このプロセスでは常識的な推論が必要になることがよくあります。
ただし、常識的な配置を実現するには、オブジェクトに関する知識が必要であり、ロボットに伝達するのは困難です。
大規模言語モデル (LLM) は、この知識の潜在的なソースの 1 つですが、世界のもっともらしい物理的配置に関する情報を単純に取得することはできません。
プロンプトを使用して LLM から意味的に有効なオブジェクト構成に関する常識的な知識を抽出し、さまざまなシーン ジオメトリに一般化するためにタスクおよびモーション プランナーでそれらをインスタンス化する LLM-GROP を提案します。
LLM-GROP を使用すると、さまざまな環境で自然言語のコマンドから人間に合わせたオブジェクトの再配置に移行できます。
人間の評価に基づいて、私たちのアプローチは最高の評価を達成し、成功率の点で競合するベースラインを上回り、同等の累積アクションコストを維持します.
最後に、現実世界のシナリオでのモバイル マニピュレーターでの LLM-GROP の実用的な実装を示します。
補足資料は、https://sites.google.com/view/llm-grop で入手できます。

要約(オリジナル)

Multi-object rearrangement is a crucial skill for service robots, and commonsense reasoning is frequently needed in this process. However, achieving commonsense arrangements requires knowledge about objects, which is hard to transfer to robots. Large language models (LLMs) are one potential source of this knowledge, but they do not naively capture information about plausible physical arrangements of the world. We propose LLM-GROP, which uses prompting to extract commonsense knowledge about semantically valid object configurations from an LLM and instantiates them with a task and motion planner in order to generalize to varying scene geometry. LLM-GROP allows us to go from natural-language commands to human-aligned object rearrangement in varied environments. Based on human evaluations, our approach achieves the highest rating while outperforming competitive baselines in terms of success rate while maintaining comparable cumulative action costs. Finally, we demonstrate a practical implementation of LLM-GROP on a mobile manipulator in real-world scenarios. Supplementary materials are available at: https://sites.google.com/view/llm-grop

arxiv情報

著者 Yan Ding,Xiaohan Zhang,Chris Paxton,Shiqi Zhang
発行日 2023-03-14 02:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク