Open-vocabulary Queryable Scene Representations for Real World Planning

要約

大規模言語モデル (LLM) は、人間の指示からタスク プランニングの新しい機能を解き放ちました。
ただし、LLM を現実世界のロボット タスクに適用するこれまでの試みは、周囲のシーンでの接地の欠如によって制限されていました。
この論文では、この問題に対処するために、オープン語彙でクエリ可能なシーン表現である NLMap を開発します。
NLMap は、コンテキスト情報を収集して LLM プランナに統合するためのフレームワークとして機能し、コンテキスト条件付きの計画を生成する前に、シーン内の使用可能なオブジェクトを表示およびクエリできるようにします。
NLMap はまず、Visual Language Models (VLM) を使用して、自然言語でクエリ可能なシーン表現を確立します。
LLM ベースのオブジェクト提案モジュールは、命令を解析し、関係するオブジェクトを提案して、オブジェクトの可用性と場所についてシーン表現を照会します。
次に、LLM プランナーは、シーンに関するそのような情報を使用して計画を立てます。
NLMap を使用すると、オブジェクトの固定リストや実行オプションなしでロボットを操作できるため、以前の方法では達成できなかった実際のロボット操作が可能になります。
プロジェクトのウェブサイト: https://nlmap-saycan.github.io

要約(オリジナル)

Large language models (LLMs) have unlocked new capabilities of task planning from human instructions. However, prior attempts to apply LLMs to real-world robotic tasks are limited by the lack of grounding in the surrounding scene. In this paper, we develop NLMap, an open-vocabulary and queryable scene representation to address this problem. NLMap serves as a framework to gather and integrate contextual information into LLM planners, allowing them to see and query available objects in the scene before generating a context-conditioned plan. NLMap first establishes a natural language queryable scene representation with Visual Language models (VLMs). An LLM based object proposal module parses instructions and proposes involved objects to query the scene representation for object availability and location. An LLM planner then plans with such information about the scene. NLMap allows robots to operate without a fixed list of objects nor executable options, enabling real robot operation unachievable by previous methods. Project website: https://nlmap-saycan.github.io

arxiv情報

著者 Boyuan Chen,Fei Xia,Brian Ichter,Kanishka Rao,Keerthana Gopalakrishnan,Michael S. Ryoo,Austin Stone,Daniel Kappler
発行日 2022-09-20 17:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク