要約
いつでも制約をマルコフゲームの設定と、いつでも制約のある平衡(ACE)の対応するソリューションの概念に拡張します。
次に、(1)実行可能なポリシーの計算特性、(2)ACEを計算するための固定パラメーターの扱いやすいアルゴリズム、および(3)ACEのほぼ計算の多項式時間アルゴリズムを含む、いつでも制約のある平衡の包括的な理論を提示します。
実行可能なポリシーは、2プレイヤーのゼロサムゲームでもNPハードであるため、$ p \ neq np $の場合、近似保証は最適です。
また、アクション制限されたマルコフゲームのための効率的な計算の最初の理論を開発します。これは、独立した関心事かもしれません。
要約(オリジナル)
We extend anytime constraints to the Markov game setting and the corresponding solution concept of an anytime-constrained equilibrium (ACE). Then, we present a comprehensive theory of anytime-constrained equilibria that includes (1) a computational characterization of feasible policies, (2) a fixed-parameter tractable algorithm for computing ACE, and (3) a polynomial-time algorithm for approximately computing ACE. Since computing a feasible policy is NP-hard even for two-player zero-sum games, our approximation guarantees are optimal so long as $P \neq NP$. We also develop the first theory of efficient computation for action-constrained Markov games, which may be of independent interest.
arxiv情報
著者 | Jeremy McMahan |
発行日 | 2025-03-04 18:40:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google