Long-Tailed Anomaly Detection with Learnable Class Names

要約

異常検出 (AD) は、欠陥のある画像を特定し、その欠陥 (存在する場合) を特定することを目的としています。
理想的には、AD モデルは多くの画像クラスにわたって欠陥を検出できる必要があります。
データセット間で情報がなかったり一貫性がなかったりする可能性があるハードコーディングされたクラス名に依存する必要はありません。
異常な監視なしで学習します。
現実世界のアプリケーションのロングテール配布に対して堅牢です。
これらの課題に対処するために、さまざまなレベルのクラス不均衡とパフォーマンス評価のメトリクスを備えたいくつかのデータセットを導入することで、ロングテール AD の問題を定式化します。
次に、データセットのクラス名に依存せずに、複数のロングテールクラスから欠陥を検出する新しい方法 LTAD を提案します。
LTAD は、再構成による AD モジュールとセマンティック AD モジュールを組み合わせます。
再構築による AD は、トランスベースの再構築モジュールを使用して実装されます。
セマンティック AD は、学習された疑似クラス名と事前トレーニングされた基礎モデルに依存するバイナリ分類子を使用して実装されます。
これらのモジュールは 2 つのフェーズにわたって学習されます。
フェーズ 1 では、ロングテールに対処するためにトレーニング データを強化する特徴合成用の疑似クラス名と変分オートエンコーダー (VAE) を学習します。
次にフェーズ 2 では、LTAD の再構成および分類モジュールのパラメーターを学習します。
提案されたロングテール データセットを使用した広範な実験により、ほとんどの形式のデータセットの不均衡に対して LTAD が最先端の方法を大幅に上回ることが示されました。
ロングテール データセットの分割は https://zenodo.org/records/10854201 で入手できます。

要約(オリジナル)

Anomaly detection (AD) aims to identify defective images and localize their defects (if any). Ideally, AD models should be able to detect defects over many image classes; without relying on hard-coded class names that can be uninformative or inconsistent across datasets; learn without anomaly supervision; and be robust to the long-tailed distributions of real-world applications. To address these challenges, we formulate the problem of long-tailed AD by introducing several datasets with different levels of class imbalance and metrics for performance evaluation. We then propose a novel method, LTAD, to detect defects from multiple and long-tailed classes, without relying on dataset class names. LTAD combines AD by reconstruction and semantic AD modules. AD by reconstruction is implemented with a transformer-based reconstruction module. Semantic AD is implemented with a binary classifier, which relies on learned pseudo class names and a pretrained foundation model. These modules are learned over two phases. Phase 1 learns the pseudo-class names and a variational autoencoder (VAE) for feature synthesis that augments the training data to combat long-tails. Phase 2 then learns the parameters of the reconstruction and classification modules of LTAD. Extensive experiments using the proposed long-tailed datasets show that LTAD substantially outperforms the state-of-the-art methods for most forms of dataset imbalance. The long-tailed dataset split is available at https://zenodo.org/records/10854201 .

arxiv情報

著者 Chih-Hui Ho,Kuan-Chuan Peng,Nuno Vasconcelos
発行日 2024-03-29 15:26:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク