要約
異常合成は、異常検査を進めるための異常なデータを増強するための重要なアプローチです。
大規模なトレーニング前の知識に基づいて、既存のテキストからイメージまでの異常な合成方法は、主にテキスト情報または粗整列された視覚的特徴に焦点を当てて、世代全体を導きます。
ただし、これらの方法は、生成プロセスのリアリズムと一般化を制限する、現実的な異常の複雑な特性(例えば、細粒の視覚パターンの異常の視覚パターンなど)をキャプチャするのに十分な記述子を欠いていることがよくあります。
この目的のために、アノマリコントロールと呼ばれる新しい異常合成フレームワークを提案し、ガイダンスシグナルとしてクロスモーダルセマンティックの特徴を学習します。これは、テキストイメージの参照プロンプトから一般化された異常なキューをコードし、合成された異常なサンプルのリアリズムを改善することができます。
具体的には、Anomalycontrolは、クロスモーダルセマンティックモデリング(CSM)モジュールがテキストおよび視覚記述子からクロスモーダルセマンティック機能を抽出するように設計されている柔軟で一致しないプロンプトペア(つまり、テキストイメージリファレンスプロンプトとターゲットテキストプロンプト)を採用します。
次に、CSMが異常の特定の視覚パターンに焦点を合わせることができるように、異常に心次の強化された注意(ASEA)メカニズムが定式化され、生成された異常の特徴のリアリズムと文脈的関連性が向上します。
クロスモーダルのセマンティック機能を以前のように処理するセマンティックガイド付きアダプター(SGA)は、適切で制御可能な合成プロセスの効果的なガイダンス信号をエンコードするように設計されています。
広範な実験は、アノマリコントロールが、下流タスクの優れた性能を示しながら、既存の方法と比較して、異常な合成で最先端の結果を達成できることを示しています。
要約(オリジナル)
Anomaly synthesis is a crucial approach to augment abnormal data for advancing anomaly inspection. Based on the knowledge from the large-scale pre-training, existing text-to-image anomaly synthesis methods predominantly focus on textual information or coarse-aligned visual features to guide the entire generation process. However, these methods often lack sufficient descriptors to capture the complicated characteristics of realistic anomalies (e.g., the fine-grained visual pattern of anomalies), limiting the realism and generalization of the generation process. To this end, we propose a novel anomaly synthesis framework called AnomalyControl to learn cross-modal semantic features as guidance signals, which could encode the generalized anomaly cues from text-image reference prompts and improve the realism of synthesized abnormal samples. Specifically, AnomalyControl adopts a flexible and non-matching prompt pair (i.e., a text-image reference prompt and a targeted text prompt), where a Cross-modal Semantic Modeling (CSM) module is designed to extract cross-modal semantic features from the textual and visual descriptors. Then, an Anomaly-Semantic Enhanced Attention (ASEA) mechanism is formulated to allow CSM to focus on the specific visual patterns of the anomaly, thus enhancing the realism and contextual relevance of the generated anomaly features. Treating cross-modal semantic features as the prior, a Semantic Guided Adapter (SGA) is designed to encode effective guidance signals for the adequate and controllable synthesis process. Extensive experiments indicate that AnomalyControl can achieve state-of-the-art results in anomaly synthesis compared with existing methods while exhibiting superior performance for downstream tasks.
arxiv情報
著者 | Shidan He,Lei Liu,Xiujun Shu,Bo Wang,Yuanhao Feng,Shen Zhao |
発行日 | 2025-04-18 11:28:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google