Exploiting No-Regret Algorithms in System Design


コラム プレイヤーがシステムの設計者でもあり、ペイオフ マトリックスの設計を完全に制御できる、繰り返される 2 プレイヤーのゼロサム ゲーム設定を調査します。
コラム プレイヤーの目標は、対戦相手がシステム デザイナーにとって有利な混合戦略を選択するように導くことです。
したがって、彼女は次のことを行う必要があります。(i) 適切なペイオフ マトリックス $A$ を設計します。その一意のミニマックス ソリューションには、ロウ プレーヤーの望ましい混合戦略が含まれます。
(ii) 一連のプレイ中に列プレーヤーと戦略的にやり取りして、対戦相手が望ましい行動に収束するように導きます。
このようなペイオフ行列を設計するために、目的の動作を備えた一意のミニマックス ソリューションを証明できる新しいソリューションを提案します。
また、一意性が不要なこの問題の緩和についても調査しますが、すべてのミニマックス ソリューションは行プレーヤーに対して同じ混合戦略を持っています。
最後に、システム設計者向けに新しいゲーム プレイ アルゴリズムを提案し、\emph{stable} 後悔のないアルゴリズムをプレイする可能性のあるロウ プレーヤーをミニマックス ソリューションに収束させることができることを証明します。


We investigate a repeated two-player zero-sum game setting where the column player is also a designer of the system, and has full control on the design of the payoff matrix. In addition, the row player uses a no-regret algorithm to efficiently learn how to adapt their strategy to the column player’s behaviour over time in order to achieve good total payoff. The goal of the column player is to guide her opponent to pick a mixed strategy which is favourable for the system designer. Therefore, she needs to: (i) design an appropriate payoff matrix $A$ whose unique minimax solution contains the desired mixed strategy of the row player; and (ii) strategically interact with the row player during a sequence of plays in order to guide her opponent to converge to that desired behaviour. To design such a payoff matrix, we propose a novel solution that provably has a unique minimax solution with the desired behaviour. We also investigate a relaxation of this problem where uniqueness is not required, but all the minimax solutions have the same mixed strategy for the row player. Finally, we propose a new game playing algorithm for the system designer and prove that it can guide the row player, who may play a \emph{stable} no-regret algorithm, to converge to a minimax solution.


著者 Le Cong Dinh,Nick Bishop,Long Tran-Thanh
発行日 2023-02-15 10:04:59+00:00
arxivサイト arxiv_id(pdf)

