Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning

要約

協調的なマルチエージェント強化学習 (MARL) のための既存の値ベースのアルゴリズムは、通常、環境を探索するために $\epsilon$-greedy などのランダム探索に依存しています。
しかし、このような探索は、複数のエージェントの協力が必要な状態で効果的な共同行動を見つけるには非効率的です。
この研究では、値関数のアンサンブルを使用して値ベースの MARL アルゴリズムをシームレスに拡張するための一般的なフレームワークである、マルチエージェント探索のためのアンサンブル値関数 (EMAX) を提案します。
EMAX は、価値関数のアンサンブルを活用してエージェントの探索をガイドし、最適化を安定させ、調整ミスに対するポリシーをより堅牢にします。
これらの利点は、3 つの手法を組み合わせて使用​​することで実現されます。
(1) EMAX は、UCB ポリシーのアンサンブル全体にわたる値の推定値の不確実性を使用して、探査をガイドします。
この探索ポリシーは、エージェント間の協力が必要な環境の部分に焦点を当てているため、エージェントは協力する方法をより効率的に学習できます。
(2) 最適化中に、EMAX はアンサンブル全体の平均値推定値としてターゲット値を計算します。
これらのターゲットは、一般的に適用されるターゲット ネットワークと比較して低い分散を示し、他のエージェントの探索および非定常ポリシーによって引き起こされる高い分散に一般的に悩まされる MARL において大きな利点をもたらします。
(3) 評価中、EMAX はアンサンブル全体の多数決に従ってアクションを選択します。これにより、次善のアクションが選択される可能性が低くなります。
EMAX、独立した DQN、VDN、QMIX を使用して 3 つの値ベースの MARL アルゴリズムをインスタンス化し、4 つの環境にわたる 21 のタスクでそれらを評価します。
EMAX は、5 つの値関数のアンサンブルを使用して、これらのアルゴリズムのサンプル効率と最終評価結果を、21 タスクの平均でそれぞれ 60%、47%、539% 向上させます。

要約(オリジナル)

Existing value-based algorithms for cooperative multi-agent reinforcement learning (MARL) commonly rely on random exploration, such as $\epsilon$-greedy, to explore the environment. However, such exploration is inefficient at finding effective joint actions in states that require cooperation of multiple agents. In this work, we propose ensemble value functions for multi-agent exploration (EMAX), a general framework to seamlessly extend value-based MARL algorithms with ensembles of value functions. EMAX leverages the ensemble of value functions to guide the exploration of agents, stabilises their optimisation, and makes their policies more robust to miscoordination. These benefits are achieved by using a combination of three techniques. (1) EMAX uses the uncertainty of value estimates across the ensemble in a UCB policy to guide the exploration. This exploration policy focuses on parts of the environment which require cooperation across agents and, thus, enables agents to more efficiently learn how to cooperate. (2) During the optimisation, EMAX computes target values as average value estimates across the ensemble. These targets exhibit lower variance compared to commonly applied target networks, leading to significant benefits in MARL which commonly suffers from high variance caused by the exploration and non-stationary policies of other agents. (3) During evaluation, EMAX selects actions following a majority vote across the ensemble, which reduces the likelihood of selecting sub-optimal actions. We instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN and QMIX, and evaluate them in 21 tasks across four environments. Using ensembles of five value functions, EMAX improves sample efficiency and final evaluation returns of these algorithms by 60%, 47%, and 539%, respectively, averaged across 21 tasks.

arxiv情報

著者 Lukas Schäfer,Oliver Slumbers,Stephen McAleer,Yali Du,Stefano V. Albrecht,David Mguni
発行日 2024-04-16 16:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク