REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation

要約

Vision-Language Models(VLMS)は、特にタスク分解のために環境の全体的な理解を必要とする長老型タスクで、ロボット計画において顕著な能力を実証しています。
既存の方法は通常、以前の環境知識または慎重に設計されたタスク固有のプロンプトに依存しているため、動的なシーンの変更や予期しないタスク条件に耐えます。たとえば、マイクロ波にニンジンを入れようとするロボットがドアが閉じられていることがわかります。
このような課題は、適応性と効率性という2つの重要な問題を強調しています。
この作業では、それらに対処するために、Remacと呼ばれる適応的なマルチエージェント計画フレームワークを提案します。これは、継続的な反射と自己進化を通じて、効率的でシーンに依存しないマルチロボットの長老タスクの計画と実行を可能にします。
REMACには、2つの重要なモジュールが組み込まれています。ループで事前条件と条件後のチェックを実行する自己反射モジュールが、進捗状況を評価し、計画を絞り込むことと、シーン固有の推論に基づいて計画を動的に適応させる自己進化モジュールです。
それはいくつかの魅力的な利点を提供します:1)ロボットは、複雑な迅速な設計なしで最初に環境について探求し、推論することができます。
2)ロボットは、潜在的な計画エラーを反映し、タスク固有の洞察に基づいて計画を適応させることができます。
3)反復後、ロボットは別のロボットを呼び出して並行してタスクを調整し、タスク実行効率を最大化できます。
Remacの有効性を検証するために、Robocasaに基づいた長距離ロボットの操作とナビゲーション用のマルチエージェント環境を構築し、27のタスクスタイルと50以上の異なるオブジェクトを備えた4つのタスクカテゴリを備えています。
それに基づいて、DeepSeek-R1、O3-Mini、QWQ、GROK3を含む最先端の推論モデルをさらにベンチマークし、平均成功率を40%増加させ、実行効率を単一のロボットベースラインより52.7%上昇させることにより、Remacの優位性を実証しました。

要約(オリジナル)

Vision-language models (VLMs) have demonstrated remarkable capabilities in robotic planning, particularly for long-horizon tasks that require a holistic understanding of the environment for task decomposition. Existing methods typically rely on prior environmental knowledge or carefully designed task-specific prompts, making them struggle with dynamic scene changes or unexpected task conditions, e.g., a robot attempting to put a carrot in the microwave but finds the door was closed. Such challenges underscore two critical issues: adaptability and efficiency. To address them, in this work, we propose an adaptive multi-agent planning framework, termed REMAC, that enables efficient, scene-agnostic multi-robot long-horizon task planning and execution through continuous reflection and self-evolution. REMAC incorporates two key modules: a self-reflection module performing pre-condition and post-condition checks in the loop to evaluate progress and refine plans, and a self-evolvement module dynamically adapting plans based on scene-specific reasoning. It offers several appealing benefits: 1) Robots can initially explore and reason about the environment without complex prompt design. 2) Robots can keep reflecting on potential planning errors and adapting the plan based on task-specific insights. 3) After iterations, a robot can call another one to coordinate tasks in parallel, maximizing the task execution efficiency. To validate REMAC’s effectiveness, we build a multi-agent environment for long-horizon robot manipulation and navigation based on RoboCasa, featuring 4 task categories with 27 task styles and 50+ different objects. Based on it, we further benchmark state-of-the-art reasoning models, including DeepSeek-R1, o3-mini, QwQ, and Grok3, demonstrating REMAC’s superiority by boosting average success rates by 40% and execution efficiency by 52.7% over the single robot baseline.

arxiv情報

著者 Puzhen Yuan,Angyuan Ma,Yunchao Yao,Huaxiu Yao,Masayoshi Tomizuka,Mingyu Ding
発行日 2025-03-28 03:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク