Discrete Message via Online Clustering Labels in Decentralized POMDP

要約

部分的に観察可能なマルコフ決定プロセスにおける協調的なマルチエージェント強化学習タスクを解決するには、コミュニケーションが不可欠です。
既存の作品は、ローカル情報/特徴を他のエージェントと共有するメッセージにエンコードするブラックボックス手法に依存することがよくあります。
ただし、このようなブラックボックス アプローチでは、期待される収益について定量的な保証を提供することができず、多くの場合、通信オーバーヘッドが高く、解釈可能性が低い継続的なメッセージが生成されます。
この論文では、完全な可観測性を備えた理想的なポリシーと、離散通信を備えた最適な部分可観測性ポリシーとの間のリターン ギャップの上限を確立します。
この結果により、メッセージをクラスター ラベルとして、リターン ギャップの上限をクラスター損失として使用して、マルチエージェント通信を各エージェントのローカル観察に対する新しいオンライン クラスタリング問題に再キャストすることができます。
上限を最小限に抑えることで、マルチエージェント通信におけるメッセージ生成関数の驚くほど単純な設計を提案し、それを正則化情報最大化損失関数を使用した強化学習と統合します。
評価の結果、提案された個別通信は最先端のマルチエージェント通信ベースラインを大幅に上回り、自然に解釈可能な数ビットのメッセージで最適に近い利益を達成できることが示されています。

要約(オリジナル)

Communication is crucial for solving cooperative Multi-Agent Reinforcement Learning tasks in Partially-Observable Markov Decision Processes. Existing works often rely on black-box methods to encode local information/features into messages shared with other agents. However, such black-box approaches are unable to provide any quantitative guarantees on the expected return and often lead to the generation of continuous messages with high communication overhead and poor interpretability. In this paper, we establish an upper bound on the return gap between an ideal policy with full observability and an optimal partially-observable policy with discrete communication. This result enables us to recast multi-agent communication into a novel online clustering problem over the local observations at each agent, with messages as cluster labels and the upper bound on the return gap as clustering loss. By minimizing the upper bound, we propose a surprisingly simple design of message generation functions in multi-agent communication and integrate it with reinforcement learning using a Regularized Information Maximization loss function. Evaluations show that the proposed discrete communication significantly outperforms state-of-the-art multi-agent communication baselines and can achieve nearly-optimal returns with few-bit messages that are naturally interpretable.

arxiv情報

著者 Jingdi Chen,Tian Lan
発行日 2023-08-14 14:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク