要約
マルチモーダル特徴の再構築は、3D異常検出の有望なアプローチであり、二重モダリティからの補完的な情報を活用します。
さらに、中間特徴を融合させて特徴の違いをさらに区別するマルチモーダルメンター学習を利用することにより、このパラダイムをさらに進めます。
これらの課題に対処するために、マルチモーダルメンター学習を利用するMentor3ADと呼ばれる新しい方法を提案します。
さまざまなモダリティの共有機能を活用することにより、Mentor3ADはより効果的な機能を抽出し、機能の再構築をガイドし、最終的に検出性能を向上させることができます。
具体的には、Mentor3ADには、RGBから抽出された機能と3Dモダリティから抽出された機能をマージするFusionモジュール(MFM)のメンターが含まれています。
さらに、メンター機能によってサポートされているクロスモーダル再構成を促進するために、ガイダンスモジュール(MGM)のメンターを設計しました。
最後に、最終的な異常スコアをより正確に生成するために、投票モジュール(VM)を導入します。
MVTEC 3D-ADおよび眼鏡に関する広範な比較およびアブレーション研究により、提案された方法の有効性が検証されています。
要約(オリジナル)
Multimodal feature reconstruction is a promising approach for 3D anomaly detection, leveraging the complementary information from dual modalities. We further advance this paradigm by utilizing multi-modal mentor learning, which fuses intermediate features to further distinguish normal from feature differences. To address these challenges, we propose a novel method called Mentor3AD, which utilizes multi-modal mentor learning. By leveraging the shared features of different modalities, Mentor3AD can extract more effective features and guide feature reconstruction, ultimately improving detection performance. Specifically, Mentor3AD includes a Mentor of Fusion Module (MFM) that merges features extracted from RGB and 3D modalities to create a mentor feature. Additionally, we have designed a Mentor of Guidance Module (MGM) to facilitate cross-modal reconstruction, supported by the mentor feature. Lastly, we introduce a Voting Module (VM) to more accurately generate the final anomaly score. Extensive comparative and ablation studies on MVTec 3D-AD and Eyecandies have verified the effectiveness of the proposed method.
arxiv情報
著者 | Jinbao Wang,Hanzhe Liang,Can Gao,Chenxi Hu,Jie Zhou,Yunkang Cao,Linlin Shen,Weiming Shen |
発行日 | 2025-05-27 16:46:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google