Learning How to Strategically Disclose Information

要約

戦略的情報開示の最も単純な形式では、情報受信者が関心のある個人情報にアクセスできる情報提供者 (送信者) 間のゲームが考慮されます。受信者が両方のプレイヤーの効用に影響を与えるアクションを実行する一方で、送信者は
信号コミットメントを通じて受信者の情報を設計 (または信念を変更) できるため、Stackelberg ゲームが提起されます。
ただし、このゲームでシュタッケルベルク均衡を取得するには、伝統的に、送信者が受信者の目標にアクセスできる必要があります。
この研究では、送信者が各ラウンドで敵対的に選ばれた未知のタイプの受信者と対話する、情報設計のオンライン バージョンを検討します。
送信者と受信者のガウス事前コストと二次コストに注目を限定して、$\mathcal{O}(\sqrt{T})$ リグレスは完全な情報フィードバックで達成可能であることを示します。ここで、$T$ は相互作用の総数です。
送り手と受け手の間。
さらに、送信者が一般の凸効用関数に対して $\mathcal{O}(\sqrt{T})$ リグレットを達成できる新しいパラメータ化を提案します。
次に、目的関数にコスト項を追加したベイジアン説得問題を検討します。これにより、より有益で $\mathcal{O}(\log(T))$ 後悔が得られるシグナリング ポリシーにペナルティが課されます。
最後に、部分情報フィードバック設定に制限されたサブリニアリグレスを確立し、理論的結果をサポートするシミュレーションを提供します。

要約(オリジナル)

Strategic information disclosure, in its simplest form, considers a game between an information provider (sender) who has access to some private information that an information receiver is interested in. While the receiver takes an action that affects the utilities of both players, the sender can design information (or modify beliefs) of the receiver through signal commitment, hence posing a Stackelberg game. However, obtaining a Stackelberg equilibrium for this game traditionally requires the sender to have access to the receiver’s objective. In this work, we consider an online version of information design where a sender interacts with a receiver of an unknown type who is adversarially chosen at each round. Restricting attention to Gaussian prior and quadratic costs for the sender and the receiver, we show that $\mathcal{O}(\sqrt{T})$ regret is achievable with full information feedback, where $T$ is the total number of interactions between the sender and the receiver. Further, we propose a novel parametrization that allows the sender to achieve $\mathcal{O}(\sqrt{T})$ regret for a general convex utility function. We then consider the Bayesian Persuasion problem with an additional cost term in the objective function, which penalizes signaling policies that are more informative and obtain $\mathcal{O}(\log(T))$ regret. Finally, we establish a sublinear regret bound for the partial information feedback setting and provide simulations to support our theoretical results.

arxiv情報

著者 Raj Kiriti Velicheti,Melih Bastopcu,S. Rasoul Etesami,Tamer Başar
発行日 2024-03-13 17:44:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.IT, cs.LG, cs.SY, eess.SY, math.IT, math.OC パーマリンク