Human-Free Automated Prompting for Vision-Language Anomaly Detection: Prompt Optimization with Meta-guiding Prompt Scheme

要約

事前トレーニングされたビジョン言語モデル (VLM) は、少数ショット学習を通じてさまざまな下流タスクに高度に適応できるため、プロンプトベースの異常検出が有望なアプローチになります。
従来の方法は、特定の異常タイプに関する事前の知識を必要とする人間が作成したプロンプトに依存しています。
私たちの目標は、データ駆動型の方法を通じてプロンプトを最適に学習し、人間の介入の必要性を排除する、人手を介さないプロンプトベースの異常検出フレームワークを開発することです。
このアプローチの主な課題は、トレーニング段階で異常なサンプルが不足していることです。
さらに、VLM の Vision Transformer (ViT) ベースの画像エンコーダは、元の画像と出力特徴マップの間の局所特徴の不一致のため、ピクセル単位の異常セグメンテーションには理想的ではありません。
最初の課題に取り組むために、私たちはトレーニング用に異常サンプルを合成するオブジェクト アテンション異常生成モジュール (OAGM) を開発しました。
さらに、メタガイド プロンプト チューニング スキーム (MPTS) は、合成された異常への過剰適合を回避するために、学習可能なプロンプトの勾配ベースの最適化方向を繰り返し調整します。
2 番目の課題では、局所性認識アテンションを提案します。これは、各ローカル パッチ フィーチャが近くのパッチ フィーチャのみに注目し、元の位置に対応するローカリティ フィーチャを保持することを保証します。
このフレームワークは、人間の意味論的な制約から解放され、バックプロパゲーションを介して連続潜在空間内を検索することにより、最適なプロンプト埋め込みを可能にします。
さらに、修正された局所性認識アテンションにより、ピクセル単位の異常セグメンテーションの精度が向上します。

要約(オリジナル)

Pre-trained vision-language models (VLMs) are highly adaptable to various downstream tasks through few-shot learning, making prompt-based anomaly detection a promising approach. Traditional methods depend on human-crafted prompts that require prior knowledge of specific anomaly types. Our goal is to develop a human-free prompt-based anomaly detection framework that optimally learns prompts through data-driven methods, eliminating the need for human intervention. The primary challenge in this approach is the lack of anomalous samples during the training phase. Additionally, the Vision Transformer (ViT)-based image encoder in VLMs is not ideal for pixel-wise anomaly segmentation due to a locality feature mismatch between the original image and the output feature map. To tackle the first challenge, we have developed the Object-Attention Anomaly Generation Module (OAGM) to synthesize anomaly samples for training. Furthermore, our Meta-Guiding Prompt-Tuning Scheme (MPTS) iteratively adjusts the gradient-based optimization direction of learnable prompts to avoid overfitting to the synthesized anomalies. For the second challenge, we propose Locality-Aware Attention, which ensures that each local patch feature attends only to nearby patch features, preserving the locality features corresponding to their original locations. This framework allows for the optimal prompt embeddings by searching in the continuous latent space via backpropagation, free from human semantic constraints. Additionally, the modified locality-aware attention improves the precision of pixel-wise anomaly segmentation.

arxiv情報

著者 Pi-Wei Chen,Jerry Chun-Wei Lin,Jia Ji,Feng-Hao Yeh,Chao-Chun Chen
発行日 2024-08-30 11:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク