Reliability in Semantic Segmentation: Are We on the Right Track?

要約

コンピュータ ビジョンにおけるトランスフォーマーの人気の高まりに刺激されて、最近では新しいアーキテクチャが急速に開発されています。
ドメイン内のパフォーマンスは一定の上昇傾向をたどりますが、堅牢性や不確実性の推定などのプロパティはあまり調査されておらず、モデルの信頼性の向上について疑問が残ります。
これらの軸に沿った研究は存在しますが、主に分類モデルに限定されています。
対照的に、モデルの信頼性が最優先される多くの実世界のアプリケーションに関連するタスクであるセマンティック セグメンテーションに関する研究を行っています。
古い ResNet ベースのアーキテクチャから新しいトランスフォーマーまで、さまざまなモデルを分析し、堅牢性、キャリブレーション、誤分類の検出、および分布外 (OOD) の検出の 4 つの指標に基づいて信頼性を評価します。
最近のモデルははるかに堅牢ですが、不確実性の推定に関しては全体的に信頼性が高いわけではありません。
さらに、救助に役立つ方法を探り、キャリブレーションを改善することで、誤分類や OOD 検出などの他の不確実性指標にも役立つことを示します。
これは、堅牢性と不確実性の推定の両方に焦点を当てた最新のセグメンテーション モデルに関する最初の研究であり、この基本的なビジョン タスクに関心のある実務家や研究者に役立つことを願っています。
コードは https://github.com/naver/relis で入手できます。

要約(オリジナル)

Motivated by the increasing popularity of transformers in computer vision, in recent times there has been a rapid development of novel architectures. While in-domain performance follows a constant, upward trend, properties like robustness or uncertainty estimation are less explored -leaving doubts about advances in model reliability. Studies along these axes exist, but they are mainly limited to classification models. In contrast, we carry out a study on semantic segmentation, a relevant task for many real-world applications where model reliability is paramount. We analyze a broad variety of models, spanning from older ResNet-based architectures to novel transformers and assess their reliability based on four metrics: robustness, calibration, misclassification detection and out-of-distribution (OOD) detection. We find that while recent models are significantly more robust, they are not overall more reliable in terms of uncertainty estimation. We further explore methods that can come to the rescue and show that improving calibration can also help with other uncertainty metrics such as misclassification or OOD detection. This is the first study on modern segmentation models focused on both robustness and uncertainty estimation and we hope it will help practitioners and researchers interested in this fundamental vision task. Code available at https://github.com/naver/relis.

arxiv情報

著者 Pau de Jorge,Riccardo Volpi,Philip Torr,Gregory Rogez
発行日 2023-03-20 17:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク