On the Efficacy of Generalization Error Prediction Scoring Functions

要約

一般化誤差予測子 (GEP) は、サンプル レベルのスコアからデータセット レベルの誤差推定値を導き出すことで、目に見えない分布でのモデルのパフォーマンスを予測することを目的としています。
ただし、GEP は、そのような誤差推定値を導出するために異種のメカニズム (リグレッサー、しきい値関数、校正データセットなど) を利用することが多く、特定のスコアリング関数の利点がわかりにくくなる可能性があります。
したがって、この研究では、メカニズムの選択とは関係なく、一般的なスコア関数 (信頼性、局所多様体の滑らかさ、モデルの一致) の有効性を厳密に研究します。
複雑なメカニズムが存在しない場合、分布のシフトや破損の下で誤差を推定する場合、最先端の信頼性と滑らかさに基づくスコアは単純なモデル一致スコアを上回ることができないことがわかりました。
さらに、トレーニング データが侵害された現実的な設定 (ラベル ノイズ、測定ノイズ、アンダーサンプリングなど) では、モデル一致スコアが引き続き良好なパフォーマンスを示し、アンサンブルの多様性がそのパフォーマンスを向上させるために重要であることがわかりました。
最後に、スコアリング関数の限界をよりよく理解するために、単純性バイアス、つまり単純だが脆弱な機能に依存するディープ ニューラル ネットワークの傾向が GEP のパフォーマンスに悪影響を与える可能性があることを示します。
全体として、私たちの研究は、現実的な設定における一般的なスコアリング関数の有効性を注意深く研究し、その限界をより深く理解するのに役立ちます。

要約(オリジナル)

Generalization error predictors (GEPs) aim to predict model performance on unseen distributions by deriving dataset-level error estimates from sample-level scores. However, GEPs often utilize disparate mechanisms (e.g., regressors, thresholding functions, calibration datasets, etc), to derive such error estimates, which can obfuscate the benefits of a particular scoring function. Therefore, in this work, we rigorously study the effectiveness of popular scoring functions (confidence, local manifold smoothness, model agreement), independent of mechanism choice. We find, absent complex mechanisms, that state-of-the-art confidence- and smoothness- based scores fail to outperform simple model-agreement scores when estimating error under distribution shifts and corruptions. Furthermore, on realistic settings where the training data has been compromised (e.g., label noise, measurement noise, undersampling), we find that model-agreement scores continue to perform well and that ensemble diversity is important for improving its performance. Finally, to better understand the limitations of scoring functions, we demonstrate that simplicity bias, or the propensity of deep neural networks to rely upon simple but brittle features, can adversely affect GEP performance. Overall, our work carefully studies the effectiveness of popular scoring functions in realistic settings and helps to better understand their limitations.

arxiv情報

著者 Puja Trivedi,Danai Koutra,Jayaraman J. Thiagarajan
発行日 2023-05-29 16:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク