PAC Prediction Sets Under Label Shift

要約

予測セットは、個々のラベルではなくラベルのセットを予測することで不確実性を捉え、下流の意思決定ですべての妥当な結果を保守的に説明できるようにします。
等角推論アルゴリズムは、高い確率で真のラベルが含まれることが保証された予測セットを構築します。
これらの保証は、分布の変化に直面すると成り立ちません。このようなときにこそ、信頼できる不確実性の定量化が最も役立ちます。
ラベルシフト設定で PAC 保証を備えた予測セットを構築するための新しいアルゴリズムを提案します。
この方法では、ターゲット ドメイン内のクラスの予測確率と混同行列を推定し、ガウス消去法アルゴリズムを通じてこれらの推定値の不確実性を伝播して、重要度の重みの信頼区間を計算します。
最後に、これらの間隔を使用して予測セットを構築します。
CIFAR-10、ChestX-Ray、Entity-13 画像データセット、表形式の CDC Heart データセット、AGNews テキスト データセットの 5 つのデータセットでアプローチを評価します。
私たちのアルゴリズムは、PAC 保証を満たしながら、いくつかのベースラインと比較して、より小さく、より有益な予測セットを生成します。

要約(オリジナル)

Prediction sets capture uncertainty by predicting sets of labels rather than individual labels, enabling downstream decisions to conservatively account for all plausible outcomes. Conformal inference algorithms construct prediction sets guaranteed to contain the true label with high probability. These guarantees fail to hold in the face of distribution shift, which is precisely when reliable uncertainty quantification can be most useful. We propose a novel algorithm for constructing prediction sets with PAC guarantees in the label shift setting. This method estimates the predicted probabilities of the classes in a target domain, as well as the confusion matrix, then propagates uncertainty in these estimates through a Gaussian elimination algorithm to compute confidence intervals for importance weights. Finally, it uses these intervals to construct prediction sets. We evaluate our approach on five datasets: the CIFAR-10, ChestX-Ray and Entity-13 image datasets, the tabular CDC Heart dataset, and the AGNews text dataset. Our algorithm satisfies the PAC guarantee while producing smaller, more informative, prediction sets compared to several baselines.

arxiv情報

著者 Wenwen Si,Sangdon Park,Insup Lee,Edgar Dobriban,Osbert Bastani
発行日 2023-10-19 17:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク