要約
ゲームベースの意思決定には、世界の力学とエージェント間の戦略的相互作用の両方を推論することが含まれます。
通常、これらのそれぞれの側面を捉えた経験的モデルは個別に学習され、使用されます。
私たちは、ダイナミクスの世界モデルと戦略的相互作用の経験的ゲームという要素を共同学習することで得られる潜在的な利益を調査します。
経験的ゲームは、戦略プロファイルの多様性によって引き起こされる可能性のあるゲームダイナミクスをより広範に検討する方向に世界モデルを推進します。
逆に、世界モデルは経験的なゲームを導き、計画を通じて新しい戦略を効率的に発見します。
これらの利点を最初は単独で実証し、次に経験的ゲームと世界モデルを共同学習する新しいアルゴリズム Dyna-PSRO によって実現されるように組み合わせて実証します。
ベースラインの経験的ゲーム構築アルゴリズムである PSRO と比較すると、Dyna-PSRO は、部分的に観察可能な総和ゲームでより低いリグレス解を計算することがわかります。
私たちの実験では、Dyna-PSRO は PSRO よりも必要なエクスペリエンスが大幅に少なく、プレイヤーとゲームのインタラクション データの収集がコスト制限要因となる設定にとってアルゴリズム上の重要な利点となります。
要約(オリジナル)
Game-based decision-making involves reasoning over both world dynamics and strategic interactions among the agents. Typically, empirical models capturing these respective aspects are learned and used separately. We investigate the potential gain from co-learning these elements: a world model for dynamics and an empirical game for strategic interactions. Empirical games drive world models toward a broader consideration of possible game dynamics induced by a diversity of strategy profiles. Conversely, world models guide empirical games to efficiently discover new strategies through planning. We demonstrate these benefits first independently, then in combination as realized by a new algorithm, Dyna-PSRO, that co-learns an empirical game and a world model. When compared to PSRO — a baseline empirical-game building algorithm, Dyna-PSRO is found to compute lower regret solutions on partially observable general-sum games. In our experiments, Dyna-PSRO also requires substantially fewer experiences than PSRO, a key algorithmic advantage for settings where collecting player-game interaction data is a cost-limiting factor.
arxiv情報
著者 | Max Olan Smith,Michael P. Wellman |
発行日 | 2023-05-23 16:37:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google