要約
視覚異常検出研究の最近の進歩により、MVTec や VisA などの公開ベンチマーク データセットの AUROC スコアと AUPRO スコアが完全再現に向かって収束し、これらのベンチマークがほぼ解決されているという印象を与えています。
ただし、AUROC および AUPRO の高いスコアは常に定性的なパフォーマンスを反映しているわけではないため、現実のアプリケーションにおけるこれらのメトリクスの有効性は制限されます。
私たちは、適切な評価基準の欠如によって課せられた人為的な上限がこの分野の進歩を抑制していると主張し、アルゴリズムを評価するために使用される評価基準を再検討することが重要であると主張します。
これに応えて、AUROC と AUPRO の欠点に対処する新しいメトリクスである Per-IMage Overlap (PIMO) を導入します。
PIMO は、既存のメトリクスのリコールベースの性質を保持していますが、2 つの違いを導入しています。曲線 (および曲線の下のそれぞれの領域) の割り当ては画像ごとであり、その X 軸は通常の画像のみに依存します。
画像ごとの再現率を測定すると、インスタンス スコアのインデックス作成が簡素化され、ノイズの多い注釈に対してより堅牢になります。
示したように、計算も高速化され、モデルを比較するための統計的テストの使用が可能になります。
通常の画像に誤検知に対する低い許容度を課すことで、PIMO は強化されたモデル検証手順を提供し、データセット間のパフォーマンスのばらつきを強調します。
私たちの実験は、PIMO が、異常検出ベンチマークを再定義する実用的な利点と微妙なパフォーマンスの洞察を提供することを示しています。これは、MVTec AD および VisA データセットが現代のモデルによって解決されているという認識に特に疑問を投げかけるものです。
GitHub で入手可能: https://github.com/jpcbertoldo/aupimo。
要約(オリジナル)
Recent advances in visual anomaly detection research have seen AUROC and AUPRO scores on public benchmark datasets such as MVTec and VisA converge towards perfect recall, giving the impression that these benchmarks are near-solved. However, high AUROC and AUPRO scores do not always reflect qualitative performance, which limits the validity of these metrics in real-world applications. We argue that the artificial ceiling imposed by the lack of an adequate evaluation metric restrains progression of the field, and it is crucial that we revisit the evaluation metrics used to rate our algorithms. In response, we introduce Per-IMage Overlap (PIMO), a novel metric that addresses the shortcomings of AUROC and AUPRO. PIMO retains the recall-based nature of the existing metrics but introduces two distinctions: the assignment of curves (and respective area under the curve) is per-image, and its X-axis relies solely on normal images. Measuring recall per image simplifies instance score indexing and is more robust to noisy annotations. As we show, it also accelerates computation and enables the usage of statistical tests to compare models. By imposing low tolerance for false positives on normal images, PIMO provides an enhanced model validation procedure and highlights performance variations across datasets. Our experiments demonstrate that PIMO offers practical advantages and nuanced performance insights that redefine anomaly detection benchmarks — notably challenging the perception that MVTec AD and VisA datasets have been solved by contemporary models. Available on GitHub: https://github.com/jpcbertoldo/aupimo.
arxiv情報
著者 | Joao P. C. Bertoldo,Dick Ameln,Ashwin Vaidya,Samet Akçay |
発行日 | 2024-01-19 15:51:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google