要約
複数のオブジェクトの再配置はサービス ロボットにとって重要なスキルであり、このプロセスでは常識的な推論が頻繁に必要になります。
しかし、常識的な取り決めを実現するには物体に関する知識が必要であり、それをロボットに伝えるのは困難です。
大規模言語モデル (LLM) は、この知識の潜在的な情報源の 1 つですが、世界のもっともらしい物理的配置に関する情報を素朴に捕捉するわけではありません。
我々は、LLM-GROP を提案します。これは、プロンプトを使用して、LLM から意味的に有効なオブジェクト構成に関する常識的な知識を抽出し、それらをタスクおよびモーション プランナーでインスタンス化して、さまざまなシーン ジオメトリに一般化します。
LLM-GROP を使用すると、さまざまな環境で自然言語コマンドから人間に合わせたオブジェクトの再配置を行うことができます。
人間による評価に基づいた当社のアプローチは、成功率の点で競合ベースラインを上回り、同等の累積アクションコストを維持しながら最高の評価を達成しています。
最後に、現実世界のシナリオでモバイル マニピュレータ上で LLM-GROP を実際に実装する方法を示します。
補足資料は、https://sites.google.com/view/llm-grop から入手できます。
要約(オリジナル)
Multi-object rearrangement is a crucial skill for service robots, and commonsense reasoning is frequently needed in this process. However, achieving commonsense arrangements requires knowledge about objects, which is hard to transfer to robots. Large language models (LLMs) are one potential source of this knowledge, but they do not naively capture information about plausible physical arrangements of the world. We propose LLM-GROP, which uses prompting to extract commonsense knowledge about semantically valid object configurations from an LLM and instantiates them with a task and motion planner in order to generalize to varying scene geometry. LLM-GROP allows us to go from natural-language commands to human-aligned object rearrangement in varied environments. Based on human evaluations, our approach achieves the highest rating while outperforming competitive baselines in terms of success rate while maintaining comparable cumulative action costs. Finally, we demonstrate a practical implementation of LLM-GROP on a mobile manipulator in real-world scenarios. Supplementary materials are available at: https://sites.google.com/view/llm-grop
arxiv情報
著者 | Yan Ding,Xiaohan Zhang,Chris Paxton,Shiqi Zhang |
発行日 | 2023-10-05 18:09:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google