Multiplayer Bandit Learning, from Competition to Cooperation

要約

確率的多腕バンディット モデルは、探索と搾取の間のトレードオフを捉えます。
私たちは、このトレードオフに対する競争と協力の影響を研究します。
$k$ のアームと 2 人のプレイヤー、アリスとボブがいるとします。
すべてのラウンドで、各プレーヤーは腕を引っ張り、その結果として得られる報酬を受け取り、他のプレーヤーの選択を観察しますが、自分の報酬は観察しません。
アリスのユーティリティは $\Gamma_A + \lambda \Gamma_B$ (ボブも同様) です。ここで、$\Gamma_A$ はアリスの合計報酬、$\lambda \in [-1, 1]$ は協力パラメーターです。
$\lambda = -1$ では、プレイヤーはゼロサム ゲームで競争し、$\lambda = 1$ では完全に協力し、$\lambda = 0$ では中立です。各プレイヤーの効用は、各プレイヤーの有用性です。
自分のご褒美。
このモデルは、通常、プレイヤーが互いの報酬を観察する戦略的実験に関する経済学の文献に関連しています。
割引係数 $\beta$ を使用すると、Gittins 指数は 1 プレイヤーの問題を、以前の $\mu$ を持つ危険なアームと、成功確率 $p$ を持つ予測可能なアームとの比較に還元します。
プレイヤーがアーム間で無関心である場合の $p$ の値は、ギッティンズ指数 $g = g(\mu,\beta) > m$ です。ここで、$m$ はリスクのあるアームの平均です。
競合するプレーヤーが探索するのは 1 人のプレーヤーよりも少ないことを示します。 $p^* \in (m, g)$ があるため、すべての $p > p^*$ について、プレーヤーは予測可能なアームに留まります。
しかし、プレイヤーは近視眼的ではありません。彼らは依然として $p > m$ を目指して探索します。
一方、協力プレイヤーは複数のプレイヤーを探索します。
また、中立プレイヤーが互いに学習し、すべての $ p\in (p^*, g)$ について、単独でプレイする場合よりも厳密に高い合計報酬を受け取ることも示します ($p^*$ は競合ケースからのしきい値です)

最後に、あらゆるナッシュ均衡において、競合プレイヤーと中立プレイヤーは最終的に同じアームに落ち着きますが、協力プレイヤーではこれが失敗する可能性があることを示します。

要約(オリジナル)

The stochastic multi-armed bandit model captures the tradeoff between exploration and exploitation. We study the effects of competition and cooperation on this tradeoff. Suppose there are $k$ arms and two players, Alice and Bob. In every round, each player pulls an arm, receives the resulting reward, and observes the choice of the other player but not their reward. Alice’s utility is $\Gamma_A + \lambda \Gamma_B$ (and similarly for Bob), where $\Gamma_A$ is Alice’s total reward and $\lambda \in [-1, 1]$ is a cooperation parameter. At $\lambda = -1$ the players are competing in a zero-sum game, at $\lambda = 1$, they are fully cooperating, and at $\lambda = 0$, they are neutral: each player’s utility is their own reward. The model is related to the economics literature on strategic experimentation, where usually players observe each other’s rewards. With discount factor $\beta$, the Gittins index reduces the one-player problem to the comparison between a risky arm, with a prior $\mu$, and a predictable arm, with success probability $p$. The value of $p$ where the player is indifferent between the arms is the Gittins index $g = g(\mu,\beta) > m$, where $m$ is the mean of the risky arm. We show that competing players explore less than a single player: there is $p^* \in (m, g)$ so that for all $p > p^*$, the players stay at the predictable arm. However, the players are not myopic: they still explore for some $p > m$. On the other hand, cooperating players explore more than a single player. We also show that neutral players learn from each other, receiving strictly higher total rewards than they would playing alone, for all $ p\in (p^*, g)$, where $p^*$ is the threshold from the competing case. Finally, we show that competing and neutral players eventually settle on the same arm in every Nash equilibrium, while this can fail for cooperating players.

arxiv情報

著者 Simina Brânzei,Yuval Peres
発行日 2024-01-12 14:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, econ.TH パーマリンク