A View on Out-of-Distribution Identification from a Statistical Testing Theory Perspective

要約

私たちは、教師あり学習コンテキストと教師なし学習コンテキストにおけるテスト時に分布外 (OOD) サンプルを効率的に検出する問題を研究します。
ML モデルは通常、トレーニング データとテスト データが同じ分布に由来するという前提に基づいてトレーニングされますが、現実的な設定ではそうでないことが多いため、展開時に分布の変化を確実に検出することが重要です。
統計的検定のレンズの下で OOD 問題を再定式化し、次に OOD 問題を統計的用語で識別可能にする条件について議論します。
このフレームワークに基づいて、Wasserstein 距離に基づいた OOD テストの収束保証を研究し、簡単な経験的評価を提供します。

要約(オリジナル)

We study the problem of efficiently detecting Out-of-Distribution (OOD) samples at test time in supervised and unsupervised learning contexts. While ML models are typically trained under the assumption that training and test data stem from the same distribution, this is often not the case in realistic settings, thus reliably detecting distribution shifts is crucial at deployment. We re-formulate the OOD problem under the lenses of statistical testing and then discuss conditions that render the OOD problem identifiable in statistical terms. Building on this framework, we study convergence guarantees of an OOD test based on the Wasserstein distance, and provide a simple empirical evaluation.

arxiv情報

著者 Alberto Caron,Chris Hicks,Vasilios Mavroudis
発行日 2024-05-10 14:09:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク