Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning

要約

協調マルチエージェント強化学習 (MARL) では、エージェントが協力することを学習するために探索する必要があります。
既存の値ベースの MARL アルゴリズムは通常、$\epsilon$-greedy などのランダムな探索に依存していますが、これはマルチエージェントの協力を発見するのに非効率的です。
さらに、MARL の環境は、他のエージェントの同時トレーニングにより、個々のエージェントにとって非定常に見え、非常に多様で不安定な最適化シグナルにつながります。
この作業では、任意の値ベースの MARL アルゴリズムを拡張するための一般的なフレームワークであるマルチエージェント探索 (EMAX) 用のアンサンブル値関数を提案します。
EMAX は、探索と非定常性の主要な課題に対処するために、各エージェントの価値関数のアンサンブルをトレーニングします。
協力が必要です。
(2) アンサンブル全体の平均値推定値がターゲット値として機能します。
これらのターゲットは、一般的に適用されるターゲット ネットワークと比較して分散が低く、最適化中に勾配がより安定することを示しています。
EMAX、独立した DQN、VDN、および QMIX を使用して 3 つの値ベースの MARL アルゴリズムをインスタンス化し、4 つの環境にわたる 21 のタスクでそれらを評価します。
5 つの値関数のアンサンブルを使用して、EMAX はサンプル効率を改善し、これらのアルゴリズムの最終評価結果をそれぞれ 54%、55%、および 844% (21 タスクすべての平均) 改善しました。

要約(オリジナル)

Cooperative multi-agent reinforcement learning (MARL) requires agents to explore to learn to cooperate. Existing value-based MARL algorithms commonly rely on random exploration, such as $\epsilon$-greedy, which is inefficient in discovering multi-agent cooperation. Additionally, the environment in MARL appears non-stationary to any individual agent due to the simultaneous training of other agents, leading to highly variant and thus unstable optimisation signals. In this work, we propose ensemble value functions for multi-agent exploration (EMAX), a general framework to extend any value-based MARL algorithm. EMAX trains ensembles of value functions for each agent to address the key challenges of exploration and non-stationarity: (1) The uncertainty of value estimates across the ensemble is used in a UCB policy to guide the exploration of agents to parts of the environment which require cooperation. (2) Average value estimates across the ensemble serve as target values. These targets exhibit lower variance compared to commonly applied target networks and we show that they lead to more stable gradients during the optimisation. We instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN and QMIX, and evaluate them in 21 tasks across four environments. Using ensembles of five value functions, EMAX improves sample efficiency and final evaluation returns of these algorithms by 54%, 55%, and 844%, respectively, averaged all 21 tasks.

arxiv情報

著者 Lukas Schäfer,Oliver Slumbers,Stephen McAleer,Yali Du,Stefano V. Albrecht,David Mguni
発行日 2023-02-28 17:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク