How to Evaluate Uncertainty Estimates in Machine Learning for Regression?

要約

ニューラルネットワークが普及するにつれて、それに伴う不確かさ推定の必要性が高まる。現在、これらの推定値の品質をテストするための主なアプローチは2つある。ほとんどの手法は密度を出力します。これらはテストセットで対数尤度を評価することで比較できます。他の方法は予測区間を直接出力します。これらの手法は,対応する予測区間内に入るテスト点の割合を調べることによってテストされることが多い.直感的にはどちらのアプローチも論理的に見える。しかし、我々は理論的な議論とシミュレーションの両方を通して、不確かさ推定の品質を評価するどちらの方法にも重大な欠陥があることを示す。第一に、両アプローチとも、予測の不確かさを共同で作り出す別々の成分を分離することができず、これらの成分の推定値の品質を評価することが困難である。第二に、より良い対数尤度は、より良い予測区間を保証しない。さらに、予測区間を直接テストする現在のアプローチには、さらなる欠陥がある。単一のテスト集合で予測区間や信頼区間をテストすることが、なぜ根本的に欠陥があるのかを示す。せいぜい限界カバレッジが測定されるだけで、過信予測と過小予測を暗黙のうちに平均化する。より望ましい特性は、ポイントワイズ・カバレッジであり、各予測に対して正しいカバレッジを要求する。我々は、これらの効果が、予測不確実性に基づいて、信頼区間や予測区間が望ましくない振る舞いをする手法を支持する結果になり得ることを、実例を通して示す。最後に、これらの問題に対処しつつ、異なる手法間の比較を容易にする、シミュレーションベースのテストアプローチを提案する。

要約(オリジナル)

As neural networks become more popular, the need for accompanying uncertainty estimates increases. There are currently two main approaches to test the quality of these estimates. Most methods output a density. They can be compared by evaluating their loglikelihood on a test set. Other methods output a prediction interval directly. These methods are often tested by examining the fraction of test points that fall inside the corresponding prediction intervals. Intuitively both approaches seem logical. However, we demonstrate through both theoretical arguments and simulations that both ways of evaluating the quality of uncertainty estimates have serious flaws. Firstly, both approaches cannot disentangle the separate components that jointly create the predictive uncertainty, making it difficult to evaluate the quality of the estimates of these components. Secondly, a better loglikelihood does not guarantee better prediction intervals, which is what the methods are often used for in practice. Moreover, the current approach to test prediction intervals directly has additional flaws. We show why it is fundamentally flawed to test a prediction or confidence interval on a single test set. At best, marginal coverage is measured, implicitly averaging out overconfident and underconfident predictions. A much more desirable property is pointwise coverage, requiring the correct coverage for each prediction. We demonstrate through practical examples that these effects can result in favoring a method, based on the predictive uncertainty, that has undesirable behaviour of the confidence or prediction intervals. Finally, we propose a simulation-based testing approach that addresses these problems while still allowing easy comparison between different methods.

arxiv情報

著者 Laurens Sluijterman,Eric Cator,Tom Heskes
発行日 2023-08-03 12:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク