Anytime-Constrained Equilibria in Polynomial Time

要約

いつでも制約をマルコフゲームの設定と、いつでも制約のある平衡(ACE)の対応するソリューションの概念に拡張します。
次に、(1)実行可能なポリシーの計算特性、(2)ACEを計算するための固定パラメーターの扱いやすいアルゴリズム、および(3)ACEのほぼ計算の多項式時間アルゴリズムを含む、いつでも制約のある平衡の包括的な理論を提示します。
実行可能なポリシーは、2プレイヤーのゼロサムゲームでもNPハードであるため、$ p \ neq np $の場合、近似保証は最適です。
また、アクション制限されたマルコフゲームのための効率的な計算の最初の理論を開発します。これは、独立した関心事かもしれません。

要約(オリジナル)

We extend anytime constraints to the Markov game setting and the corresponding solution concept of an anytime-constrained equilibrium (ACE). Then, we present a comprehensive theory of anytime-constrained equilibria that includes (1) a computational characterization of feasible policies, (2) a fixed-parameter tractable algorithm for computing ACE, and (3) a polynomial-time algorithm for approximately computing ACE. Since computing a feasible policy is NP-hard even for two-player zero-sum games, our approximation guarantees are optimal so long as $P \neq NP$. We also develop the first theory of efficient computation for action-constrained Markov games, which may be of independent interest.

arxiv情報

著者 Jeremy McMahan
発行日 2025-03-04 18:40:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.GT, cs.LG パーマリンク