要約
私たちは、善意のゲーム設計者または悪意のある敵対者が、ターゲットの決定論的または確率的政策プロファイルが独自のマルコフ完全ナッシュ均衡となり、ターゲット内の値を持つように、ゼロサム マルコフ ゲームの報酬関数を修正するゲーム修正問題を研究します。
修正コストを最小限に抑える方法で、範囲を変更します。
私たちは、インストールできる一連のポリシー プロファイルを特定のゲームの独自の均衡として特徴付け、インストールを成功させるための十分かつ必要な条件を確立します。
線形制約を使用して凸最適化問題を解き、その後ランダム摂動を実行して、最適に近いコストで修正計画を取得する効率的なアルゴリズムを提案します。
要約(オリジナル)
We study the game modification problem, where a benevolent game designer or a malevolent adversary modifies the reward function of a zero-sum Markov game so that a target deterministic or stochastic policy profile becomes the unique Markov perfect Nash equilibrium and has a value within a target range, in a way that minimizes the modification cost. We characterize the set of policy profiles that can be installed as the unique equilibrium of some game, and establish sufficient and necessary conditions for successful installation. We propose an efficient algorithm, which solves a convex optimization problem with linear constraints and then performs random perturbation, to obtain a modification plan with a near-optimal cost.
arxiv情報
著者 | Young Wu,Jeremy McMahan,Yiding Chen,Yudong Chen,Xiaojin Zhu,Qiaomin Xie |
発行日 | 2023-11-02 06:03:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google