要約
共同Qラーニングを協力的なマルチエージェント設定に拡張することは、共同行動空間の指数関数的な成長、非定常環境、クレジット割り当ての問題により挑戦的です。
値分解により、表現率の低下を犠牲にして、共同エージェントレベルで深いQラーニングを適用することができます。
この方向に過去の作業に基づいて構築された私たちの論文は、ペアブドンを提案します。これは、値関数をエージェントではなくペアワイズのコレクションに分解し、より複雑な(ただし効率的な)動的プログラミングの最大化アルゴリズムを必要とするコストで表現力を向上させるための新しい方法です。
私たちの方法により、VDNやQMIXなどの過去のアプローチとは異なり、エージェント一人の関数の単調な組み合わせとして表現できない値関数の表現が可能になります。
私たちは、この設定でこれらのベースラインでの小説の多くのエージェント協同組合環境、ボックスジャンプを実装し、これらのベースラインでのパフォーマンスの向上を実証します。
https://github.com/zzbuzzard/pairvdnでコードと環境をオープンソースします。
要約(オリジナル)
Extending deep Q-learning to cooperative multi-agent settings is challenging due to the exponential growth of the joint action space, the non-stationary environment, and the credit assignment problem. Value decomposition allows deep Q-learning to be applied at the joint agent level, at the cost of reduced expressivity. Building on past work in this direction, our paper proposes PairVDN, a novel method for decomposing the value function into a collection of pair-wise, rather than per-agent, functions, improving expressivity at the cost of requiring a more complex (but still efficient) dynamic programming maximisation algorithm. Our method enables the representation of value functions which cannot be expressed as a monotonic combination of per-agent functions, unlike past approaches such as VDN and QMIX. We implement a novel many-agent cooperative environment, Box Jump, and demonstrate improved performance over these baselines in this setting. We open-source our code and environment at https://github.com/zzbuzzard/PairVDN.
arxiv情報
著者 | Zak Buzzard |
発行日 | 2025-03-12 16:38:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google