要約
不確実性の推定は、セマンティックセグメンテーション法の信頼性の高い適用に不可欠であり、多くの研究がなされている。一方では方法論の進歩を主張し、他方では応用の成功を主張する様々な研究が存在するが、この分野は現在、根本的な疑問が未解決のまま、理論と実践の間のギャップによって妨げられている:データに関連する不確実性とモデルに関連する不確実性は、実際に分離できるのか?不確実性手法のどの構成要素が実際の性能に不可欠なのか?どの不確実性手法がどの用途に有効なのか?本研究では、この研究ギャップを、不確実性手法の体系的かつ包括的な評価の欠如に結びつけます。具体的には、現在の文献における3つの重要な落とし穴を特定し、1)データの曖昧性と分布シフトを研究するための制御された環境、2)関連する手法コンポーネントの体系的な除去、3)5つの主要な不確実性アプリケーションのテストベッドを提供することにより、研究のギャップを埋める評価フレームワークを提示する:OoD検出、能動学習、故障検出、校正、曖昧さモデリング。シミュレーションデータだけでなく、実世界のデータに対する実証的な結果は、提案されたフレームワークが、この分野の主要な疑問にどのように答えることができるかを示し、例えば、1)不確実性のタイプの分離は、シミュレーションデータ上では機能するが、実世界のデータには必ずしも反映されない、2)スコアの集約は、不確実性手法の重要であるが、現在無視されている要素である、3)アンサンブルは、異なる下流のタスクと設定にわたって最も頑健に機能するが、テスト時間の増強は、しばしば軽量な代替手段を構成する。コードは https://github.com/IML-DKFZ/values にある。
要約(オリジナル)
Uncertainty estimation is an essential and heavily-studied component for the reliable application of semantic segmentation methods. While various studies exist claiming methodological advances on the one hand, and successful application on the other hand, the field is currently hampered by a gap between theory and practice leaving fundamental questions unanswered: Can data-related and model-related uncertainty really be separated in practice? Which components of an uncertainty method are essential for real-world performance? Which uncertainty method works well for which application? In this work, we link this research gap to a lack of systematic and comprehensive evaluation of uncertainty methods. Specifically, we identify three key pitfalls in current literature and present an evaluation framework that bridges the research gap by providing 1) a controlled environment for studying data ambiguities as well as distribution shifts, 2) systematic ablations of relevant method components, and 3) test-beds for the five predominant uncertainty applications: OoD-detection, active learning, failure detection, calibration, and ambiguity modeling. Empirical results on simulated as well as real-world data demonstrate how the proposed framework is able to answer the predominant questions in the field revealing for instance that 1) separation of uncertainty types works on simulated data but does not necessarily translate to real-world data, 2) aggregation of scores is a crucial but currently neglected component of uncertainty methods, 3) While ensembles are performing most robustly across the different downstream tasks and settings, test-time augmentation often constitutes a light-weight alternative. Code is at: https://github.com/IML-DKFZ/values
arxiv情報
著者 | Kim-Celine Kahl,Carsten T. Lüth,Maximilian Zenk,Klaus Maier-Hein,Paul F. Jaeger |
発行日 | 2024-05-03 09:18:24+00:00 |
arxivサイト | arxiv_id(pdf) |