Performative Prediction with Bandit Feedback: Learning through Reparameterization

要約

タイトル:再パラメータ化によるバンディットフィードバックによるパフォーマティブ予測の学習

要約:
– Perdomoらによって導入されたパフォーマティブ予測は、モデルの展開に応じてデータ分布が変化する社会的予測を研究するための枠組みである。
– この設定で精度を最適化する既存の研究は、以下の2つの仮定に依存しているため、実際のデータに簡単に違反される可能性がある。
– パフォーマティブリスクが展開されたモデルに対して凸であること
– モデルからデータ分布へのマッピングがモデルデザイナーによって事前に知られていること
– この論文では、これらの仮定を必要としない、実用的により困難なパフォーマティブ予測問題の研究を開始する。
– このより厳しい設定に対処するために、2段階のゼロ次の最適化アルゴリズムを開発し、1段階目は分布マップを計算することを目的とし、2段階目は導入されたデータ分布の関数としてパフォーマティブ予測目標を再パラメータ化する。
– わずかな条件の下で、この再パラメータ化により非凸目的関数を凸関数に変換し、証明可能な失望保証を達成することができる。
– 特に、取得されたパフォーマティブサンプルの総数に対してサブリニアであり、モデルパラメータの次元に対してのみ多項式である失望バウンドを提供する。

要約(オリジナル)

Performative prediction, as introduced by Perdomo et al. (2020), is a framework for studying social prediction in which the data distribution itself changes in response to the deployment of a model. Existing work on optimizing accuracy in this setting hinges on two assumptions that are easily violated in practice: that the performative risk is convex over the deployed model, and that the mapping from the model to the data distribution is known to the model designer in advance. In this paper, we initiate the study of tractable performative prediction problems that do not require these assumptions. To tackle this more challenging setting, we develop a two-level zeroth-order optimization algorithm, where one level aims to compute the distribution map, and the other level reparameterizes the performative prediction objective as a function of the induced data distribution. Under mild conditions, this reparameterization allows us to transform the non-convex objective into a convex one and achieve provable regret guarantees. In particular, we provide a regret bound that is sublinear in the total number of performative samples taken and only polynomial in the dimension of the model parameter.

arxiv情報

著者 Yatong Chen,Wei Tang,Chien-Ju Ho,Yang Liu
発行日 2023-05-08 05:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク