要約
マルチエージェント システムで効果的にコラボレーションするには、エージェント間で目標と意図を伝達する必要があります。
現在のエージェント フレームワークは、単一エージェントの実行への依存性が問題となることが多く、堅牢なモジュール間通信が不足しているため、最適ではないマルチエージェント強化学習 (MARL) ポリシーや不適切なタスク調整が頻繁に発生します。
これらの課題に対処するために、協調的な MARL での協調的な動作を可能にする協調的なエージェントとして大規模言語モデル (LLM) をトレーニングするためのフレームワークを紹介します。
各エージェントは、現在の目標と関連するサブタスクから構成されるプライベート インテントを維持します。
エージェントは定期的に意図をブロードキャストし、他のエージェントが調整タスクを推測できるようにします。
伝播ネットワークはブロードキャストの意図をチームメイト固有の通信メッセージに変換し、指定されたチームメイトと関連する目標を共有します。
私たちのフレームワークのアーキテクチャは、計画、基礎、実行のモジュールで構成されています。
実行中、複数のエージェントが下流環境で対話し、協調的な動作を可能にする意図を伝達します。
グラウンディング モジュールは、新たな調整パターンに基づいて理解戦略を動的に適応させますが、実行エージェントからのフィードバックは計画モジュールに影響を与え、サブタスクの動的な再計画を可能にします。
協調環境シミュレーションの結果は、意図の伝播がエージェント間のサブタスクの依存関係を調整することで調整ミスを軽減することを示しています。
エージェントは、いつ意図を伝えるべきか、どのチームメイトがタスクの詳細を必要とするかを学習し、その結果、緊急に協調的な行動が生まれます。
これは、LLM に基づく協調的なマルチエージェント RL の意図共有の有効性を示しています。
要約(オリジナル)
Effective collaboration in multi-agent systems requires communicating goals and intentions between agents. Current agent frameworks often suffer from dependencies on single-agent execution and lack robust inter-module communication, frequently leading to suboptimal multi-agent reinforcement learning (MARL) policies and inadequate task coordination. To address these challenges, we present a framework for training large language models (LLMs) as collaborative agents to enable coordinated behaviors in cooperative MARL. Each agent maintains a private intention consisting of its current goal and associated sub-tasks. Agents broadcast their intentions periodically, allowing other agents to infer coordination tasks. A propagation network transforms broadcast intentions into teammate-specific communication messages, sharing relevant goals with designated teammates. The architecture of our framework is structured into planning, grounding, and execution modules. During execution, multiple agents interact in a downstream environment and communicate intentions to enable coordinated behaviors. The grounding module dynamically adapts comprehension strategies based on emerging coordination patterns, while feedback from execution agents influnces the planning module, enabling the dynamic re-planning of sub-tasks. Results in collaborative environment simulation demonstrate intention propagation reduces miscoordination errors by aligning sub-task dependencies between agents. Agents learn when to communicate intentions and which teammates require task details, resulting in emergent coordinated behaviors. This demonstrates the efficacy of intention sharing for cooperative multi-agent RL based on LLMs.
arxiv情報
著者 | Xihe Qiu,Haoyu Wang,Xiaoyu Tan,Chao Qu,Yujie Xiong,Yuan Cheng,Yinghui Xu,Wei Chu,Yuan Qi |
発行日 | 2024-07-17 13:14:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google