要約
私たちは、状態制約と一方的な情報を備えたゼロサム差分ゲームを研究します。このゲームでは、情報を持ったプレイヤー (プレイヤー 1) は、情報を持たないプレイヤー (プレイヤー 2) には未知のカテゴリカルな利得タイプを持っています。
プレイヤー 1 の目標は、制約に違反することなく自分の利得を最小限に抑えることですが、プレイヤー 2 の目標は、可能であれば状態制約に違反するか、そうでない場合は利得を最大化することです。
ゲームの一例は、サッカーにおけるマンツーマンの対戦です。
Cardaliaguet (2007) は、状態の制約がなければ、そのようなゲームの価値が存在し、プレイヤーの共通の信念に反映されることを示しました。
私たちの理論的貢献は、この結果を状態制約のあるゲームに拡張し、行動戦略の計算に必要な基本原理と二重サブダイナミック原理を導き出すことです。
離散力学を伴うゲームにおける後悔のない学習のスケーラビリティを懸念する既存の研究とは異なり、私たちの研究は、情報の非対称性と状態の制約から生じる信念操作の戦略の基礎となる構造を明らかにします。
この構造は、継続的なアクションと長い時間枠を伴うゲームでのスケーラブルな学習に必要です。
私たちは、単純化されたフットボール ゲームを使用して、この研究の有用性を実証します。そこでは、攻撃者が情報の非対称性を利用するために特定のランダムな欺瞞的な動きをすべき (またはすべきではない) プレーヤーの位置と信念状態を明らかにし、防御者がどのように行動すべきかを計算します。
応答する。
要約(オリジナル)
We study zero-sum differential games with state constraints and one-sided information, where the informed player (Player 1) has a categorical payoff type unknown to the uninformed player (Player 2). The goal of Player 1 is to minimize his payoff without violating the constraints, while that of Player 2 is to violate the state constraints if possible, or to maximize the payoff otherwise. One example of the game is a man-to-man matchup in football. Without state constraints, Cardaliaguet (2007) showed that the value of such a game exists and is convex to the common belief of players. Our theoretical contribution is an extension of this result to games with state constraints and the derivation of the primal and dual subdynamic principles necessary for computing behavioral strategies. Different from existing works that are concerned about the scalability of no-regret learning in games with discrete dynamics, our study reveals the underlying structure of strategies for belief manipulation resulting from information asymmetry and state constraints. This structure will be necessary for scalable learning on games with continuous actions and long time windows. We use a simplified football game to demonstrate the utility of this work, where we reveal player positions and belief states in which the attacker should (or should not) play specific random deceptive moves to take advantage of information asymmetry, and compute how the defender should respond.
arxiv情報
著者 | Mukesh Ghimire,Lei Zhang,Zhe Xu,Yi Ren |
発行日 | 2024-06-04 17:26:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google