Stochastic Online Conformal Prediction with Semi-Bandit Feedback

要約

コンフォーマル予測は、単一のラベルの代わりにモデルをラベルの出力セットに変更することにより、不確実性の定量化の効果的な戦略として浮上しています。
これらの予測セットには、確率が高い真のラベルが含まれているという保証が付いています。
ただし、コンフォーマル予測には通常、i.i.d。の大規模なキャリブレーションデータセットが必要です。
例。
例として例が到着するオンライン学習設定を検討し、目標は予測セットを動的に構築することです。
既存の作業から逸脱して、半バンディットフィードバックを想定しています。ここでは、予測セットに含まれている場合にのみ真のラベルを観察します。
たとえば、ドキュメント検索モデルを新しいドメインに校正することを検討してください。
この設定では、ターゲットドキュメントが取得ドキュメントの予測セットにある場合にのみ、ユーザーは真のラベルを提供できるようになります。
この設定でターゲットにされた新しいコンフォーマル予測アルゴリズムを提案し、最適なコンフォーマル予測子と比較してサブリン後悔を得ることを証明します。
検索タスク、画像分類タスク、およびオークション価格設定タスクでアルゴリズムを評価し、いくつかのベースラインと比較して優れたパフォーマンスを実証することを実証します。

要約(オリジナル)

Conformal prediction has emerged as an effective strategy for uncertainty quantification by modifying a model to output sets of labels instead of a single label. These prediction sets come with the guarantee that they contain the true label with high probability. However, conformal prediction typically requires a large calibration dataset of i.i.d. examples. We consider the online learning setting, where examples arrive over time, and the goal is to construct prediction sets dynamically. Departing from existing work, we assume semi-bandit feedback, where we only observe the true label if it is contained in the prediction set. For instance, consider calibrating a document retrieval model to a new domain; in this setting, a user would only be able to provide the true label if the target document is in the prediction set of retrieved documents. We propose a novel conformal prediction algorithm targeted at this setting, and prove that it obtains sublinear regret compared to the optimal conformal predictor. We evaluate our algorithm on a retrieval task, an image classification task, and an auction price-setting task, and demonstrate that it empirically achieves good performance compared to several baselines.

arxiv情報

著者 Haosen Ge,Hamsa Bastani,Osbert Bastani
発行日 2025-05-27 16:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク