Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling

要約

対戦相手のモデリング方法には、通常、2つの重要な手順が含まれます。対戦相手の戦略に対する信念分布の構築と、最良の応答を実行してこの相手モデルを悪用します。
ただし、既存のアプローチでは通常、そのようなモデルを思い付くためにドメイン固有の肝臓が必要であり、最良の応答を近似するためのアルゴリズムは、大きく不完全な情報ドメインで拡張するのが困難です。
この作業では、ディープゲーム理論強化学習を使用した相手モデリングのためのスケーラブルで一般的なマルチエージェントトレーニング体制を紹介します。
最初に、計画中に世界の状態をサンプリングする学習した深い生成モデルを使用して、モンテカルロツリー検索(MCTS)に基づく最高の応答アルゴリズムであるGenerative Best Respoonse(GenBR)を提案します。
この新しい方法は、大きな不完全な情報ドメインにスケーリングし、さまざまなマルチエージェントアルゴリズムでプラグアンドプレイできます。
この新しい方法は、ポリシー空間応答Oracles(PSRO)のフレームワークの下で使用して、反復的なゲーム理論的推論と人口ベースのトレーニングを介して\ emph {オフライン相手モデル}の生成を自動化します。
交渉理論に基づいてソリューションの概念を使用して、相手の混合物を構築することを提案します。これは、パレートフロンティアの近くにある識別プロファイルを見つけることがわかります。
その後、GenBRは\ emphems {オンライン相手モデル}を更新し続け、ゲームプレイ中にそれに対して反応します。
私たちは、人間の参加者が、二国間交渉ゲームのクラスであるDeal-Or-No-Dealでエージェントと交渉する行動研究を実施します。
生成モデリングを使用して検索すると、トレーニング時間とテスト時間の両方でより強力なポリシーが見つかり、オンラインベイジアンの共同プレイヤー予測を可能にし、人間が自分自身の間で取引することとして人間と交渉する同等の社会福祉とナッシュ交渉スコアを達成するエージェントを生み出すことができます。

要約(オリジナル)

Opponent modeling methods typically involve two crucial steps: building a belief distribution over opponents’ strategies, and exploiting this opponent model by playing a best response. However, existing approaches typically require domain-specific heurstics to come up with such a model, and algorithms for approximating best responses are hard to scale in large, imperfect information domains. In this work, we introduce a scalable and generic multiagent training regime for opponent modeling using deep game-theoretic reinforcement learning. We first propose Generative Best Respoonse (GenBR), a best response algorithm based on Monte-Carlo Tree Search (MCTS) with a learned deep generative model that samples world states during planning. This new method scales to large imperfect information domains and can be plug and play in a variety of multiagent algorithms. We use this new method under the framework of Policy Space Response Oracles (PSRO), to automate the generation of an \emph{offline opponent model} via iterative game-theoretic reasoning and population-based training. We propose using solution concepts based on bargaining theory to build up an opponent mixture, which we find identifying profiles that are near the Pareto frontier. Then GenBR keeps updating an \emph{online opponent model} and reacts against it during gameplay. We conduct behavioral studies where human participants negotiate with our agents in Deal-or-No-Deal, a class of bilateral bargaining games. Search with generative modeling finds stronger policies during both training time and test time, enables online Bayesian co-player prediction, and can produce agents that achieve comparable social welfare and Nash bargaining score negotiating with humans as humans trading among themselves.

arxiv情報

著者 Zun Li,Marc Lanctot,Kevin R. McKee,Luke Marris,Ian Gemp,Daniel Hennes,Paul Muller,Kate Larson,Yoram Bachrach,Michael P. Wellman
発行日 2025-06-13 15:38:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク