Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration

要約

物理世界の複雑さのため、具体化されたタスクに対する大規模言語モデル (LLM) の推論能力を基礎付けることは困難です。
特に、マルチエージェントコラボレーションのための LLM 計画では、提案された計画を再調整し、効果的な調整を達成するためのフィードバックとして、エージェント間のコミュニケーションやクレジット割り当てが必要です。
ただし、物理的な検証や自己反映に過度に依存する既存の方法では、LLM の過剰で非効率なクエリが発生するという問題があります。
この論文では、計画を効率的に自己調整するための Reinforced Advantage フィードバック (ReAd) を導入した、マルチエージェント コラボレーションのための新しいフレームワークを提案します。
具体的には、批評家回帰を実行して LLM 計画データから順次アドバンテージ関数を学習し、LLM プランナーをオプティマイザーとして扱い、アドバンテージ関数を最大化するアクションを生成します。
これにより、LLM は、アクションが最終タスクの達成に貢献するかどうかを識別する先見性を得ることができます。
強化学習におけるアドバンテージ重み付け回帰をマルチエージェント システムに拡張することにより、理論的な分析を提供します。
Overcooked-AI と RoCoBench の困難なバリアントに関する実験では、ReAd が成功率でベースラインを上回り、エージェントの対話ステップと LLM のクエリ ラウンドを大幅に減少させ、LLM の接地効率が高いことを示しています。
詳しい結果は \url{https://read-llm.github.io/} にあります。

要約(オリジナル)

Grounding the reasoning ability of large language models (LLMs) for embodied tasks is challenging due to the complexity of the physical world. Especially, LLM planning for multi-agent collaboration requires communication of agents or credit assignment as the feedback to re-adjust the proposed plans and achieve effective coordination. However, existing methods that overly rely on physical verification or self-reflection suffer from excessive and inefficient querying of LLMs. In this paper, we propose a novel framework for multi-agent collaboration that introduces Reinforced Advantage feedback (ReAd) for efficient self-refinement of plans. Specifically, we perform critic regression to learn a sequential advantage function from LLM-planned data, and then treat the LLM planner as an optimizer to generate actions that maximize the advantage function. It endows the LLM with the foresight to discern whether the action contributes to accomplishing the final task. We provide theoretical analysis by extending advantage-weighted regression in reinforcement learning to multi-agent systems. Experiments on Overcooked-AI and a difficult variant of RoCoBench show that ReAd surpasses baselines in success rate, and also significantly decreases the interaction steps of agents and query rounds of LLMs, demonstrating its high efficiency for grounding LLMs. More results are given at \url{https://read-llm.github.io/}.

arxiv情報

著者 Yang Zhang,Shixin Yang,Chenjia Bai,Fei Wu,Xiu Li,Xuelong Li,Zhen Wang
発行日 2024-05-23 08:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA, cs.RO パーマリンク