要約
ゼロショット体制で高レベルのロボット計画を実行するためのマルチエージェント ビジョン大規模言語モデル (VLLM) フレームワークである Wonderful Team を紹介します。
この文脈では、ゼロショットの高レベル計画とは、新しい環境に対して、ロボットの周囲の画像とタスクの説明を VLLM に提供し、VLLM がロボットがタスクを完了するために必要な一連のアクションを出力することを意味します。
。
ロボット操作のための高レベルの視覚的計画のための以前の方法とは異なり、私たちの方法は計画プロセス全体に VLLM を使用し、認識、制御、および計画の間のより緊密に統合されたループを可能にします。
その結果、現実世界の意味論的および物理的な計画タスクにおける Wonderful Team のパフォーマンスは、別個のビジョン システムに依存する方法を超えることがよくあります。
たとえば、VimaBench では、NLaP などの以前の方法と比較して成功率が平均 40% 向上し、軌道ジェネレーターの論文に記載されているタスク (プレートの描画や拭き取りなど) では、軌道ジェネレーターと比較して平均 30% の成功率が向上し、平均 70% の向上が見られます。
暗黙の言語的制約を伴う環境の再配置を含む、新しい一連の意味論的推論タスクに関する軌跡ジェネレーターを使用します。
これらの結果が過去 1 年間の VLLM の急速な改善を強調し、将来のいくつかの高レベルのロボット計画問題に対するオプションとして VLLM を検討するようコミュニティに動機を与えることを願っています。
要約(オリジナル)
We introduce Wonderful Team, a multi-agent Vision Large Language Model (VLLM) framework for executing high level robotic planning in a zero-shot regime. In our context, zero-shot high-level planning means that for a novel environment, we provide a VLLM with an image of the robot’s surroundings and a task description, and the VLLM outputs the sequence of actions necessary for the robot to complete the task. Unlike previous methods for high-level visual planning for robotic manipulation, our method uses VLLMs for the entire planning process, enabling a more tightly integrated loop between perception, control, and planning. As a result, Wonderful Team’s performance on a real-world semantic and physical planning tasks often exceeds methods that rely on separate vision systems. For example, we see an average 40% success-rate improvement on VimaBench over prior methods such as NLaP, an average 30% improvement over Trajectory Generators on tasks from the Trajectory Generator paper including drawing and wiping a plate, and an average 70% improvement over Trajectory Generators on a new set of semantic reasoning tasks including environment re-arrangement with implicit linguistic constraints. We hope these results highlight the rapid improvements of VLLMs in the past year, and motivate the community to consider VLLMs as an option for some high-level robotic planning problems in the future.
arxiv情報
著者 | Zidan Wang,Rui Shen,Bradly Stadie |
発行日 | 2024-12-04 00:40:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google