Finding Competence Regions in Domain Generalization

要約

テスト分布がトレーニング分布と異なるドメイン一般化 (DG) におけるサイレント障害の問題に対処するために、「拒否する学習」フレームワークを提案します。
分布の変化が緩やかであると仮定すると、OOD データを完全に拒否するのではなく、モデルの推定能力が信頼できる応答を予見する場合はいつでも、分布外 (OOD) データを受け入れたいと考えています。
次に、信頼性は、分類子のパフォーマンスに密接に関連するプロキシの無能スコアを介して予測されます。
分類のための無能スコアの包括的な実験的評価を提示し、拒否率と精度の向上の間の結果のトレードオフを強調します。
以前の研究との比較を可能にするために、標準的な DG ベンチマークに焦点を当て、クローズド ワールドとオープン ワールドの設定でさまざまな学習表現を介して無能を測定する効果を検討します。
私たちの結果は、無能スコアの増加が実際に精度の低下を予測し、適切な無能しきい値を下回る平均精度の大幅な改善につながることを示唆しています。
ただし、スコアは、テストされたすべてのドメインで好ましい精度/拒否のトレードオフを可能にするのに十分ではありません。
驚くべきことに、私たちの結果は、DG の堅牢性のために最適化された分類子が、能力領域、つまりテスト サンプルが低い無能力スコアを引き出す場所で、単純な経験的リスク最小化 (ERM) ベースラインよりも優れていないことも示しています。

要約(オリジナル)

We propose a ‘learning to reject’ framework to address the problem of silent failures in Domain Generalization (DG), where the test distribution differs from the training distribution. Assuming a mild distribution shift, we wish to accept out-of-distribution (OOD) data whenever a model’s estimated competence foresees trustworthy responses, instead of rejecting OOD data outright. Trustworthiness is then predicted via a proxy incompetence score that is tightly linked to the performance of a classifier. We present a comprehensive experimental evaluation of incompetence scores for classification and highlight the resulting trade-offs between rejection rate and accuracy gain. For comparability with prior work, we focus on standard DG benchmarks and consider the effect of measuring incompetence via different learned representations in a closed versus an open world setting. Our results suggest that increasing incompetence scores are indeed predictive of reduced accuracy, leading to significant improvements of the average accuracy below a suitable incompetence threshold. However, the scores are not yet good enough to allow for a favorable accuracy/rejection trade-off in all tested domains. Surprisingly, our results also indicate that classifiers optimized for DG robustness do not outperform a naive Empirical Risk Minimization (ERM) baseline in the competence region, that is, where test samples elicit low incompetence scores.

arxiv情報

著者 Jens Müller,Stefan T. Radev,Robert Schmier,Felix Draxler,Carsten Rother,Ullrich Köthe
発行日 2023-03-17 14:04:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク