RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection

要約

3D 点群と 2D RGB 画像を利用して製品の異常領域を特定するマルチモーダル工業異常検出 (MIAD) は、工業品質検査において重要な役割を果たします。
しかし、従来の MIAD 設定では、すべての 2D モダリティと 3D モダリティがペアになっていることが前提となっており、現実世界から収集されたマルチモーダル データは、モダリティが欠落しているために不完全であることが多いという事実が見落とされています。
したがって、モーダル不完全データに対する堅牢性を実証する MIAD モデルは、実際には非常に望ましいものです。
この実際的な課題に対処するために、マルチモーダル情報が不完全である可能性がある不完全な学習環境を考慮するために、モダリティ不完全産業異常検出 (MIIAD) を包括的に調査する、この種では初めての研究を紹介します。
当然のことながら、既存の MIAD アプローチのほとんどは MIIAD の課題に対処するには不十分であり、開発した MIIAD ベンチマークのパフォーマンスが大幅に低下することがわかりました。
この論文では、新しい 2 段階のロバストモダリティ不完全融合および検出 frAmewoRk (RADAR と略称) を提案します。
私たちのブートストラッピングの哲学は、MIIAD の 2 つのステージを強化し、マルチモーダル トランスフォーマーの堅牢性を向上させることです。 i) 機能融合では、まず学習モダリティ不完全な命令を探索し、事前トレーニングされたマルチモーダル トランスフォーマーがさまざまなモダリティ不完全なシナリオに堅牢に適応するように導きます。
、ハイパーネットワークに基づいた適応パラメータ学習を実装します。
ii) 異常検出では、モダリティの組み合わせの特徴を強調するために実-擬似ハイブリッド モジュールを構築し、MIIAD モデルの堅牢性をさらに強化します。
私たちの実験結果は、新しく作成した MIIAD データセットに対する有効性と堅牢性の点で、提案された RADAR が従来の MIAD 手法を大幅に上回っていることを示し、その実用的な応用価値を強調しています。

要約(オリジナル)

Multimodal Industrial Anomaly Detection (MIAD), utilizing 3D point clouds and 2D RGB images to identify the abnormal region of products, plays a crucial role in industrial quality inspection. However, the conventional MIAD setting presupposes that all 2D and 3D modalities are paired, overlooking the fact that multimodal data collected from the real world is often imperfect due to missing modalities. Consequently, MIAD models that demonstrate robustness against modal-incomplete data are highly desirable in practice. To address this practical challenge, we introduce a first-of-its-kind study that comprehensively investigates Modality-Incomplete Industrial Anomaly Detection (MIIAD), to consider the imperfect learning environment in which the multimodal information may be incomplete. Not surprisingly, we discovered that most existing MIAD approaches are inadequate for addressing MIIAD challenges, leading to significant performance degradation on the MIIAD benchmark we developed. In this paper, we propose a novel two-stage Robust modAlity-imcomplete fusing and Detecting frAmewoRk, abbreviated as RADAR. Our bootstrapping philosophy is to enhance two stages in MIIAD, improving the robustness of the Multimodal Transformer: i) In feature fusion, we first explore learning modality-incomplete instruction, guiding the pre-trained Multimodal Transformer to robustly adapt to various modality-incomplete scenarios, and implement adaptive parameter learning based on a HyperNetwork; ii) In anomaly detection, we construct a real-pseudo hybrid module to highlight the distinctiveness of modality combinations, further enhancing the robustness of the MIIAD model. Our experimental results demonstrate that the proposed RADAR significantly surpasses conventional MIAD methods in terms of effectiveness and robustness on our newly created MIIAD dataset, underscoring its practical application value.

arxiv情報

著者 Bingchen Miao,Wenqiao Zhang,Juncheng Li,Siliang Tang,Zhaocheng Li,Haochen Shi,Jun Xiao,Yueting Zhuang
発行日 2024-10-02 16:47:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク