Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs

要約

我々は、ゼロショット領域で高レベルのロボットプランニングを実行するためのマルチエージェントVLLM(Vision Large Language Model)フレームワークであるWonderful Teamを紹介する。我々の文脈では、ゼロショット高レベル計画とは、新しい環境に対して、ロボットの周囲の画像とタスク記述をVLLMに与え、VLLMがロボットがタスクを完了するために必要な一連の動作を出力することを意味する。ロボット操作のためのハイレベルな視覚的プランニングを行う従来の手法とは異なり、本手法はプランニングプロセス全体にVLLMを使用することで、知覚、制御、プランニングをより緊密に統合したループを実現している。その結果、実世界の意味的・物理的プランニングタスクにおけるワンダフルチームのパフォーマンスは、別々の視覚システムに依存する手法を上回ることが多い。例えば、VimaBenchでは、NLaPのような先行手法と比較して平均40%の成功率の向上、Trajectory Generatorの論文にある、描画や皿の拭き取りを含むタスクではTrajectory Generatorsと比較して平均30%の向上、暗黙的言語制約を伴う環境再配置を含む新しい意味推論タスクセットではTrajectory Generatorsと比較して平均70%の向上が見られます。また、暗黙的な言語制約を伴う環境再配置を含む新しい意味論的推論課題では、Trajectory Generatorを平均して70%上回った。これらの結果は、過去1年間におけるVLLMの急速な改良を浮き彫りにし、将来、高レベルのロボット計画問題の選択肢としてVLLMを検討する動機付けとなることを期待している。

要約(オリジナル)

We introduce Wonderful Team, a multi-agent Vision Large Language Model (VLLM) framework for executing high-level robotic planning in a zero-shot regime. In our context, zero-shot high-level planning means that for a novel environment, we provide a VLLM with an image of the robot’s surroundings and a task description, and the VLLM outputs the sequence of actions necessary for the robot to complete the task. Unlike previous methods for high-level visual planning for robotic manipulation, our method uses VLLMs for the entire planning process, enabling a more tightly integrated loop between perception, control, and planning. As a result, Wonderful Team’s performance on real-world semantic and physical planning tasks often exceeds methods that rely on separate vision systems. For example, we see an average 40% success rate improvement on VimaBench over prior methods such as NLaP, an average 30% improvement over Trajectory Generators on tasks from the Trajectory Generator paper, including drawing and wiping a plate, and an average 70% improvement over Trajectory Generators on a new set of semantic reasoning tasks including environment rearrangement with implicit linguistic constraints. We hope these results highlight the rapid improvements of VLLMs in the past year, and motivate the community to consider VLLMs as an option for some high-level robotic planning problems in the future.

arxiv情報

著者 Zidan Wang,Rui Shen,Bradly Stadie
発行日 2025-02-04 00:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク