AC2C: Adaptively Controlled Two-Hop Communication for Multi-Agent Reinforcement Learning

要約

協調型マルチエージェント強化学習 (MARL) におけるコミュニケーション戦略の学習は、最近注目を集めています。
初期の研究では通常、エージェント間で完全に接続された通信トポロジが想定されていましたが、これは高い通信コストを誘発し、実現可能ではない可能性があります。
最近のいくつかの研究では、通信オーバーヘッドを削減するための適応通信戦略が開発されていますが、これらの方法では、通信範囲を超えたエージェントから貴重な情報を効果的に取得することはできません。
この論文では、各エージェントが限られた通信範囲を持ち、通信トポロジーが動的に変化する現実的な通信モデルを考えます。
効果的なエージェント通信を促進するために、Adaptively Controlled Two-Hop Communication (AC2C) と呼ばれる新しい通信プロトコルを提案します。
最初のローカル通信ラウンドの後、AC2C は適応型の 2 ホップ通信戦略を採用して、エージェント間の長距離情報交換を可能にし、通信コントローラーによって実装されたパフォーマンスを向上させます。
このコントローラーは、各エージェントが 2 ホップ メッセージを要求するかどうかを決定するため、分散実行中の通信オーバーヘッドを削減するのに役立ちます。
3 つの協調マルチエージェント タスクで AC2C を評価し、実験結果は、より低い通信コストで関連するベースラインよりも優れていることを示しています。

要約(オリジナル)

Learning communication strategies in cooperative multi-agent reinforcement learning (MARL) has recently attracted intensive attention. Early studies typically assumed a fully-connected communication topology among agents, which induces high communication costs and may not be feasible. Some recent works have developed adaptive communication strategies to reduce communication overhead, but these methods cannot effectively obtain valuable information from agents that are beyond the communication range. In this paper, we consider a realistic communication model where each agent has a limited communication range, and the communication topology dynamically changes. To facilitate effective agent communication, we propose a novel communication protocol called Adaptively Controlled Two-Hop Communication (AC2C). After an initial local communication round, AC2C employs an adaptive two-hop communication strategy to enable long-range information exchange among agents to boost performance, which is implemented by a communication controller. This controller determines whether each agent should ask for two-hop messages and thus helps to reduce the communication overhead during distributed execution. We evaluate AC2C on three cooperative multi-agent tasks, and the experimental results show that it outperforms relevant baselines with lower communication costs.

arxiv情報

著者 Xuefeng Wang,Xinran Li,Jiawei Shao,Jun Zhang
発行日 2023-02-24 09:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA パーマリンク