要約
マルチエージェント環境では、特に中間のタイムステップでアクションを評価することが困難な長期タスクでは、グローバル報酬がまばらまたは遅れているため、エージェントは最適なポリシーを学習するのに苦労することがよくあります。
我々は、時間的およびエージェント間の両方でまばらな報酬を再分配することによって、エージェントと時間のクレジット割り当ての問題に対処するように設計された新しいアプローチである、時間的エージェント報酬再分配 (TAR$^2$) を紹介します。
TAR$^2$ は、スパースなグローバル報酬をタイムステップ固有の報酬に分解し、これらの報酬に対するエージェント固有の寄与を計算します。
私たちは、TAR$^2$ が潜在的な報酬形成と同等であり、最適なポリシーが変更されないことを保証することを理論的に証明します。
経験的結果は、TAR$^2$ が学習プロセスを安定させ、加速することを示しています。
さらに、TAR$^2$ をシングルエージェント強化学習アルゴリズムと統合すると、従来のマルチエージェント強化学習手法と同等かそれ以上のパフォーマンスを発揮することを示します。
要約(オリジナル)
In multi-agent environments, agents often struggle to learn optimal policies due to sparse or delayed global rewards, particularly in long-horizon tasks where it is challenging to evaluate actions at intermediate time steps. We introduce Temporal-Agent Reward Redistribution (TAR$^2$), a novel approach designed to address the agent-temporal credit assignment problem by redistributing sparse rewards both temporally and across agents. TAR$^2$ decomposes sparse global rewards into time-step-specific rewards and calculates agent-specific contributions to these rewards. We theoretically prove that TAR$^2$ is equivalent to potential-based reward shaping, ensuring that the optimal policy remains unchanged. Empirical results demonstrate that TAR$^2$ stabilizes and accelerates the learning process. Additionally, we show that when TAR$^2$ is integrated with single-agent reinforcement learning algorithms, it performs as well as or better than traditional multi-agent reinforcement learning methods.
arxiv情報
著者 | Aditya Kapoor,Sushant Swamy,Kale-ab Tessera,Mayank Baranwal,Mingfei Sun,Harshad Khadilkar,Stefano V. Albrecht |
発行日 | 2024-12-19 12:05:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google