Split Conformal Prediction under Data Contamination

要約

コンフォーマル予測は、データが交換可能であるという仮定の下で、任意の予測モデルから予測区間または予測セットを構築するためのノンパラメトリック手法です。
予測セットの限界カバレッジに関する理論的保証があり、分割等角予測バリアントはモデル トレーニングと比較して計算コストが非常に低いため、人気があります。
我々は、データ汚染環境における分割等角予測のロバスト性を研究します。そこでは、校正スコアのごく一部がバルクとは異なる分布から抽出されると仮定します。
「クリーンな」テスト ポイントで評価した場合に、構築されたセットのカバレッジと効率に対する破損したデータの影響を定量化し、数値実験で結果を検証します。
さらに、汚染ロバスト等形予測と呼ばれる分類設定の調整を提案し、合成データセットと実際のデータセットの両方を使用してアプローチの有効性を検証します。

要約(オリジナル)

Conformal prediction is a non-parametric technique for constructing prediction intervals or sets from arbitrary predictive models under the assumption that the data is exchangeable. It is popular as it comes with theoretical guarantees on the marginal coverage of the prediction sets and the split conformal prediction variant has a very low computational cost compared to model training. We study the robustness of split conformal prediction in a data contamination setting, where we assume a small fraction of the calibration scores are drawn from a different distribution than the bulk. We quantify the impact of the corrupted data on the coverage and efficiency of the constructed sets when evaluated on ‘clean’ test points, and verify our results with numerical experiments. Moreover, we propose an adjustment in the classification setting which we call Contamination Robust Conformal Prediction, and verify the efficacy of our approach using both synthetic and real datasets.

arxiv情報

著者 Jase Clarkson,Wenkai Xu,Mihai Cucuringu,Gesine Reinert
発行日 2024-07-10 14:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク