Optimal Private Payoff Manipulation against Commitment in Extensive-form Games

要約

ゲームをプレイする際の便利な戦術である戦略へのコミットメントを利用するには、リーダーはフォロワーの利得関数について十分な情報を学ばなければなりません。
ただし、これにより、フォロワーが偽の情報を提供し、最終的なゲームの結果に影響を与える可能性が残ります。
学習するリーダーに誤って報告される、慎重に考え出された報酬関数を通じて、フォロワーは、誠実に行動した場合よりも彼にとってより有益な結果を引き起こす可能性があります。
私たちはこのような戦略的行動を介したフォロワーの最適な操作を拡張形式のゲームにおいて研究します。
フォロワーのさまざまな態度が考慮されます。
楽観的なフォロワーは、何らかの利得関数によって引き起こされるすべてのゲーム結果の中で、自分の真の有用性を最大化します。
悲観的な信奉者は、独自のゲーム結果を引き起こす利得関数の誤った報告のみを考慮します。
このホワイトペーパーで検討したすべての設定について、うまく誘導できる可能性のあるすべてのゲーム結果を特徴付けます。
私たちは、フォロワーが自分のプライベートな報酬情報を誤って報告する最適な方法を見つけることが多項式時間で扱いやすいことを示します。
私たちの研究は、拡張形式のゲーム ツリー上でのこのフォロワーの最適操作問題を完全に解決します。

要約(オリジナル)

To take advantage of strategy commitment, a useful tactic of playing games, a leader must learn enough information about the follower’s payoff function. However, this leaves the follower a chance to provide fake information and influence the final game outcome. Through a carefully contrived payoff function misreported to the learning leader, the follower may induce an outcome that benefits him more, compared to the ones when he truthfully behaves. We study the follower’s optimal manipulation via such strategic behaviors in extensive-form games. Followers’ different attitudes are taken into account. An optimistic follower maximizes his true utility among all game outcomes that can be induced by some payoff function. A pessimistic follower only considers misreporting payoff functions that induce a unique game outcome. For all the settings considered in this paper, we characterize all the possible game outcomes that can be induced successfully. We show that it is polynomial-time tractable for the follower to find the optimal way of misreporting his private payoff information. Our work completely resolves this follower’s optimal manipulation problem on an extensive-form game tree.

arxiv情報

著者 Yurong Chen,Xiaotie Deng,Yuhao Li
発行日 2023-06-13 11:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.GT, econ.TH パーマリンク