要約
NASH平衡などのゲーム理論ソリューションの概念は、マルチプレイヤーゲームで安定した共同アクションを見つけるための鍵となっています。
ただし、エージェントの相互作用のダイナミクスは、戦略がほとんどない単純な2プレイヤーゲームでさえ、ナッシュ平衡に到達できず、複雑で予測不可能な行動を示すことができないことが示されています。
代わりに、進化的アプローチは、戦略の長期的な持続性を説明し、一時的なものを除外し、エージェントの相互作用の長期的なダイナミクスを説明します。
私たちの目標は、ダイナミックなゲームで、エージェントのペイオフを占めると同時に、変化に抵抗する安定した行動をもたらすエージェントの共同戦略を特定することです。
この目標に向けて、以前の結果に基づいて、このペーパーでは、エージェントのアクションではなくエージェントの戦略を考慮し、進化的方法論$ \ alpha $ -rankを適用して、戦略プロファイルを評価およびランク付けすることにより、動的ゲームを経験的形態に変換することを提案します。
彼らの長期的なダイナミクス。
この方法論により、エージェントの長期的な相互作用を通じて強力な共同戦略を特定できるだけでなく、これらの戦略の高いランキングに関する説明的で透明なフレームワークも提供します。
実験では、グラフの着色問題の確率的バージョンを共同で解決することを目的としたエージェントに関する報告があります。
DQNアルゴリズムを使用して、経験的ゲームを定義する戦略と、これらの戦略を実現するポリシーを訓練する戦略として、さまざまなスタイルを考慮します。
次に、シミュレーションを実行して、$ \ alpha $ -rankで必要なペイオフマトリックスを生成して、共同戦略をランク付けします。
要約(オリジナル)
Game-theoretic solution concepts, such as the Nash equilibrium, have been key to finding stable joint actions in multi-player games. However, it has been shown that the dynamics of agents’ interactions, even in simple two-player games with few strategies, are incapable of reaching Nash equilibria, exhibiting complex and unpredictable behavior. Instead, evolutionary approaches can describe the long-term persistence of strategies and filter out transient ones, accounting for the long-term dynamics of agents’ interactions. Our goal is to identify agents’ joint strategies that result in stable behavior, being resistant to changes, while also accounting for agents’ payoffs, in dynamic games. Towards this goal, and building on previous results, this paper proposes transforming dynamic games into their empirical forms by considering agents’ strategies instead of agents’ actions, and applying the evolutionary methodology $\alpha$-Rank to evaluate and rank strategy profiles according to their long-term dynamics. This methodology not only allows us to identify joint strategies that are strong through agents’ long-term interactions, but also provides a descriptive, transparent framework regarding the high ranking of these strategies. Experiments report on agents that aim to collaboratively solve a stochastic version of the graph coloring problem. We consider different styles of play as strategies to define the empirical game, and train policies realizing these strategies, using the DQN algorithm. Then we run simulations to generate the payoff matrix required by $\alpha$-Rank to rank joint strategies.
arxiv情報
著者 | Natalia Koliou,George Vouros |
発行日 | 2025-02-20 16:50:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google