Regret Minimization in Stackelberg Games with Side Information

要約

最も基本的な形式では、Stackelberg ゲームは 2 人用のゲームであり、リーダーが (混合) 戦略に取り組み、フォロワーが最善の対応をします。
シュタッケルベルク ゲームは、おそらく過去 10 年間のアルゴリズム ゲーム理論の最大の成功事例の 1 つです。シュタッケルベルク ゲームでプレイするためのアルゴリズムが、空港のセキュリティ、密猟対策、サイバー犯罪防止など、多くの実世界の分野に導入されているからです。
しかし、これらのアルゴリズムは、各プレイヤーが利用できる追加情報 (交通パターン、気象条件、ネットワークの混雑など) を考慮に入れていないことが多く、これは現実の顕著な特徴であり、両方のプレイヤーの最適な戦略に大きな影響を与える可能性があります。
私たちは、このような設定をサイド情報付きのシュタッケルベルク ゲームとして形式化します。このゲームでは、両方のプレーヤーがプレイ前に外部コンテキストを観察します。
次に、リーダーは (おそらくコンテキストに依存する) 戦略にコミットし、フォロワーはリーダーの戦略とコンテキストの両方に最適に応答します。
私たちは、時間の経過とともに一連のフォロワーが到着するオンライン設定に焦点を当てており、コンテキストはラウンドごとに変化する可能性があります。
非コンテキストバージョンとは明らかに対照的に、完全な敵対的設定(つまり、コンテキストとフォロワーの両方が敵対者によって選択された場合)では、リーダーが良いパフォーマンス(後悔によって測定される)を達成することは不可能であることを示します。
ただし、少しのランダム性が大いに役立つことがわかりました。
不可能であるという結果を動機として、後悔のない学習は 2 つの自然な緩和で可能であることを示します。1 つは、フォロワーのシーケンスが確率的に選択され、コンテキストのシーケンスが敵対的である設定です。もう 1 つは、コンテキストのシーケンスが確率的である設定です。
そして、フォロワーのシーケンスは敵によって選択されます。

要約(オリジナル)

In its most basic form, a Stackelberg game is a two-player game in which a leader commits to a (mixed) strategy, and a follower best-responds. Stackelberg games are perhaps one of the biggest success stories of algorithmic game theory over the last decade, as algorithms for playing in Stackelberg games have been deployed in many real-world domains including airport security, anti-poaching efforts, and cyber-crime prevention. However, these algorithms often fail to take into consideration the additional information available to each player (e.g. traffic patterns, weather conditions, network congestion), a salient feature of reality which may significantly affect both players’ optimal strategies. We formalize such settings as Stackelberg games with side information, in which both players observe an external context before playing. The leader then commits to a (possibly context-dependent) strategy, and the follower best-responds to both the leader’s strategy and the context. We focus on the online setting in which a sequence of followers arrive over time, and the context may change from round-to-round. In sharp contrast to the non-contextual version, we show that it is impossible for the leader to achieve good performance (measured by regret) in the full adversarial setting (i.e., when both the context and the follower are chosen by an adversary). However, it turns out that a little bit of randomness goes a long way. Motivated by our impossibility result, we show that no-regret learning is possible in two natural relaxations: the setting in which the sequence of followers is chosen stochastically and the sequence of contexts is adversarial, and the setting in which the sequence of contexts is stochastic and the sequence of followers is chosen by an adversary.

arxiv情報

著者 Keegan Harris,Zhiwei Steven Wu,Maria-Florina Balcan
発行日 2024-02-13 16:24:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク