Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation

要約

事前トレーニングされた基礎モデルを使用したゼロショット異常セグメンテーションは、コストのかかるドメイン固有のトレーニングや微調整を行わずに効果的なアルゴリズムを可能にする有望なアプローチです。
これらの方法がさまざまな環境条件で機能し、分布の変化に対して堅牢であることを確認することは、未解決の問題です。
我々は、3 つのセマンティック変換 (境界付き角度回転、境界付き彩度シフト、および色相シフト) を使用してテスト データを摂動することにより、WinCLIP [14] ゼロショット異常セグメンテーション アルゴリズムのパフォーマンスを調査します。
サンプルごとのワーストケースの摂動を集計することでパフォーマンスの下限を経験的に測定したところ、平均パフォーマンスは ROC 曲線の下の面積で最大 20%、領域ごとの重複曲線の下の面積で 40% 低下することがわかりました。
モデル アーキテクチャや学習目的に関係なく、3 つの CLIP バックボーンではパフォーマンスが一貫して低下していることがわかり、慎重なパフォーマンス評価の必要性が示されています。

要約(オリジナル)

Zero-shot anomaly segmentation using pre-trained foundation models is a promising approach that enables effective algorithms without expensive, domain-specific training or fine-tuning. Ensuring that these methods work across various environmental conditions and are robust to distribution shifts is an open problem. We investigate the performance of WinCLIP [14] zero-shot anomaly segmentation algorithm by perturbing test data using three semantic transformations: bounded angular rotations, bounded saturation shifts, and hue shifts. We empirically measure a lower performance bound by aggregating across per-sample worst-case perturbations and find that average performance drops by up to 20% in area under the ROC curve and 40% in area under the per-region overlap curve. We find that performance is consistently lowered on three CLIP backbones, regardless of model architecture or learning objective, demonstrating a need for careful performance evaluation.

arxiv情報

著者 Kevin Stangl,Marius Arvinte,Weilin Xu,Cory Cornelius
発行日 2024-05-13 17:47:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク