Credit Assignment and Efficient Exploration based on Influence Scope in Multi-agent Reinforcement Learning

要約

まばらな報酬シナリオでの協同組合のトレーニングは、マルチエージェント強化学習(MARL)に大きな課題をもたらします。
まばらな報酬設定の各ステップでのアクションに関する明確なフィードバックがなければ、以前の方法はエージェント間の正確なクレジット割り当てと効果的な調査に苦労しています。
このホワイトペーパーでは、報酬スパースドメインのクレジット割り当てと探査の問題の両方に対処するための新しい方法を紹介します。
したがって、個々のエージェントの影響を受ける可能性のある状態の寸法/属性の特定の値を取得することにより、状態に対するエージェントの影響範囲(ISA)を計算するアルゴリズムを提案します。
次に、エージェントのアクションと状態属性間の相互依存性を使用して、クレジット割り当てを計算し、個々のエージェントごとの探査スペースを区切ります。
次に、さまざまなまばらなマルチエージェントシナリオでISAを評価します。
結果は、私たちの方法が最先端のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Training cooperative agents in sparse-reward scenarios poses significant challenges for multi-agent reinforcement learning (MARL). Without clear feedback on actions at each step in sparse-reward setting, previous methods struggle with precise credit assignment among agents and effective exploration. In this paper, we introduce a novel method to deal with both credit assignment and exploration problems in reward-sparse domains. Accordingly, we propose an algorithm that calculates the Influence Scope of Agents (ISA) on states by taking specific value of the dimensions/attributes of states that can be influenced by individual agents. The mutual dependence between agents’ actions and state attributes are then used to calculate the credit assignment and to delimit the exploration space for each individual agent. We then evaluate ISA in a variety of sparse-reward multi-agent scenarios. The results show that our method significantly outperforms the state-of-art baselines.

arxiv情報

著者 Shuai Han,Mehdi Dastani,Shihan Wang
発行日 2025-05-13 14:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク