Mixed Q-Functionals: Advancing Value-Based Methods in Cooperative MARL with Continuous Action Domains

要約

継続的アクションの領域では、マルチエージェントの学習問題に効率的に取り組むのは困難な作業です。
値ベースのアルゴリズムは、離散アクション ドメインに適用するとサンプル効率に優れますが、連続アクションを扱う場合は通常非効率になります。
一方、ポリシーベースのアルゴリズムは、学習プロセスをガイドし、勾配推定を安定させるために批評家ネットワークを活用することで、この課題に対処しようとします。
これらの方法では、真のリターンの推定に限界があり、局所最適に陥るため、非効率で、しばしば次善のポリシーが生成されます。
この論文では、批評家ネットワークをさらに強化する傾向から逸脱し、多数のアクションを同時に評価することによって、マルチエージェントの連続ドメインにおける価値ベースの手法の有効性を向上させることに焦点を当てます。
我々は、Q-Functionals のアイデアからインスピレーションを得た、新しいマルチエージェント値ベースのアルゴリズム Mixed Q-Functionals (MQF) を提案します。これにより、エージェントは状態を基底関数に変換できます。
私たちのアルゴリズムは、エージェントの行動価値を混合することでエージェント間のコラボレーションを促進します。
6 つの協力的なマルチエージェント シナリオでアルゴリズムの有効性を評価します。
私たちの経験的調査結果は、MQF が迅速なアクション評価とサンプル効率の向上により、Deep Deterministic Policy Gradient の 4 つのバリエーションよりも優れたパフォーマンスを発揮することを明らかにしています。

要約(オリジナル)

Tackling multi-agent learning problems efficiently is a challenging task in continuous action domains. While value-based algorithms excel in sample efficiency when applied to discrete action domains, they are usually inefficient when dealing with continuous actions. Policy-based algorithms, on the other hand, attempt to address this challenge by leveraging critic networks for guiding the learning process and stabilizing the gradient estimation. The limitations in the estimation of true return and falling into local optima in these methods result in inefficient and often sub-optimal policies. In this paper, we diverge from the trend of further enhancing critic networks, and focus on improving the effectiveness of value-based methods in multi-agent continuous domains by concurrently evaluating numerous actions. We propose a novel multi-agent value-based algorithm, Mixed Q-Functionals (MQF), inspired from the idea of Q-Functionals, that enables agents to transform their states into basis functions. Our algorithm fosters collaboration among agents by mixing their action-values. We evaluate the efficacy of our algorithm in six cooperative multi-agent scenarios. Our empirical findings reveal that MQF outperforms four variants of Deep Deterministic Policy Gradient through rapid action evaluation and increased sample efficiency.

arxiv情報

著者 Yasin Findik,S. Reza Ahmadzadeh
発行日 2024-02-12 16:21:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO パーマリンク