Finding Nash equilibria by minimizing approximate exploitability with learned best responses

要約

ゲーム理論の均衡を見つけることに関しては、かなりの進歩が見られました。
その研究のほとんどは、有限で離散的なアクション空間を持つゲームに焦点を当てています。
ただし、空間、時間、お金、その他の細かい量が関係する多くのゲームには、連続的なアクション スペースがあります (またはそのようにモデル化するのが最適です)。
我々は、連続アクションセットを持つゲームの近似ナッシュ均衡を見つける問題を研究します。
ナッシュ均衡への近さの標準的な尺度はエクスプロイタビリティであり、プレイヤーが戦略を一方的に変更することでどれだけ利益を得られるかを測定します。
戦略プロファイルに関する悪用可能性の近似を最小限に抑える 2 つの新しい方法を提案します。
最初の方法では、学習された最適応答関数を使用します。この関数は、現在の戦略プロファイルを入力として受け取り、各プレーヤーの最適応答の候補を返します。
戦略プロファイルと最良応答関数は同時にトレーニングされ、前者は悪用可能性を最小限に抑えようとし、後者は悪用可能性を最大化しようとします。
2 番目の方法では、各プレイヤーに対する最良の応答候補のアンサンブルを維持します。
各反復では、各アンサンブルの最もパフォーマンスの高い要素を使用して、現在の戦略プロファイルが更新されます。
戦略プロファイルと最良応答アンサンブルは、それぞれ近似的な悪用可能性を最小化および最大化するように同時にトレーニングされます。
さまざまな連続ゲームで私たちの方法を評価し、以前の方法よりも優れていることを示しました。

要約(オリジナル)

There has been substantial progress on finding game-theoretic equilibria. Most of that work has focused on games with finite, discrete action spaces. However, many games involving space, time, money, and other fine-grained quantities have continuous action spaces (or are best modeled as such). We study the problem of finding an approximate Nash equilibrium of games with continuous action sets. The standard measure of closeness to Nash equilibrium is exploitability, which measures how much players can benefit from unilaterally changing their strategy. We propose two new methods that minimize an approximation of the exploitability with respect to the strategy profile. The first method uses a learned best-response function, which takes the current strategy profile as input and returns candidate best responses for each player. The strategy profile and best-response functions are trained simultaneously, with the former trying to minimize exploitability while the latter tries to maximize it. The second method maintains an ensemble of candidate best responses for each player. In each iteration, the best-performing elements of each ensemble are used to update the current strategy profile. The strategy profile and best-response ensembles are simultaneously trained to minimize and maximize the approximate exploitability, respectively. We evaluate our methods on various continuous games, showing that they outperform prior methods.

arxiv情報

著者 Carlos Martin,Tuomas Sandholm
発行日 2023-12-19 18:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク