要約
ロボットやその他の物理システムにディープ ニューラル ネットワークを展開する場合、学習されたモデルは予測の不確実性を確実に定量化する必要があります。
信頼できる不確実性により、下流モジュールはその動作の安全性について推論することができます。
この研究では、そのような不確実性を評価するための指標に取り組みます。
具体的には、回帰タスクに焦点を当て、スパース化誤差領域 (AUSE)、キャリブレーション誤差、スピアマンの順位相関、および負の対数尤度 (NLL) を調査します。
合成回帰データセットを使用して、これらのメトリクスが 4 つの典型的なタイプの不確実性の下でどのように動作するか、テスト セットのサイズに関する安定性を調査し、その長所と短所を明らかにします。
私たちの結果は、キャリブレーション エラーが最も安定していて解釈可能なメトリックであることを示していますが、AUSE と NLL にもそれぞれの使用例があります。
不確実性を評価するために Spearman の順位相関を使用することは推奨されず、AUSE に置き換えることをお勧めします。
要約(オリジナル)
When deploying deep neural networks on robots or other physical systems, the learned model should reliably quantify predictive uncertainty. A reliable uncertainty allows downstream modules to reason about the safety of its actions. In this work, we address metrics for evaluating such an uncertainty. Specifically, we focus on regression tasks, and investigate Area Under Sparsification Error (AUSE), Calibration Error, Spearman’s Rank Correlation, and Negative Log-Likelihood (NLL). Using synthetic regression datasets, we look into how those metrics behave under four typical types of uncertainty, their stability regarding the size of the test set, and reveal their strengths and weaknesses. Our results indicate that Calibration Error is the most stable and interpretable metric, but AUSE and NLL also have their respective use cases. We discourage the usage of Spearman’s Rank Correlation for evaluating uncertainties and recommend replacing it with AUSE.
arxiv情報
著者 | Zilian Xiong,Simon Kristoffersson Lind,Per-Erik Forssén,Volker Krüger |
発行日 | 2024-05-07 12:46:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google