要約
共有可能で限られたリソースをめぐる競争は、戦略的エージェントによって長い間研究されてきました。
実際には、エージェントは多くの場合、学習とリソースの報酬の最大化を同時に行う必要があります。
個別の競合ポリシーを設計するために、プレイヤーが利己的で自分の報酬を最大化することを目指す新しいマルチプレイヤー多腕盗賊 (MPMAB) 設定でエージェント間の競争をモデル化します。
さらに、複数のプレイヤーが同じアームを引く場合、これらのプレイヤーは期待に基づいてアームの報酬を平均的に共有すると仮定します。
この設定の下では、まず武器の報酬がわかっている場合のナッシュ均衡を分析します。
続いて、均衡に基づいた新しい SelfishMPMAB with Averaging Allocation (SMAA) アプローチを提案します。
すべてのプレイヤーがアルゴリズムに従う場合、SMAA が各プレイヤーに対して良好な後悔保証を達成できることを理論的に示します。
さらに、利己的なプレイヤーは一人も逸脱によって自分の報酬を大幅に増やすことはできず、また、自分自身に多大な損失を被ることなく他のプレイヤーの報酬に悪影響を与えることもできないことを証明します。
最終的に、大規模な合成実験でこの方法の有効性を検証します。
要約(オリジナル)
Competitions for shareable and limited resources have long been studied with strategic agents. In reality, agents often have to learn and maximize the rewards of the resources at the same time. To design an individualized competing policy, we model the competition between agents in a novel multi-player multi-armed bandit (MPMAB) setting where players are selfish and aim to maximize their own rewards. In addition, when several players pull the same arm, we assume that these players averagely share the arms’ rewards by expectation. Under this setting, we first analyze the Nash equilibrium when arms’ rewards are known. Subsequently, we propose a novel SelfishMPMAB with Averaging Allocation (SMAA) approach based on the equilibrium. We theoretically demonstrate that SMAA could achieve a good regret guarantee for each player when all players follow the algorithm. Additionally, we establish that no single selfish player can significantly increase their rewards through deviation, nor can they detrimentally affect other players’ rewards without incurring substantial losses for themselves. We finally validate the effectiveness of the method in extensive synthetic experiments.
arxiv情報
著者 | Renzhe Xu,Haotian Wang,Xingxuan Zhang,Bo Li,Peng Cui |
発行日 | 2023-05-30 15:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google