要約
クリップなどの視覚言語モデルの最近の進歩により、ゼロおよび少ないショットの異常検出(ZFSAD)タスクのパフォーマンスが大幅に向上しました。
ただし、ほとんどの既存のクリップベースの方法は、カテゴリの事前知識を想定しており、特定のシナリオに合わせた慎重に設計されたプロンプトに依存しています。
これらのテキストプロンプトは、テキスト空間でセマンティック情報をキャプチャしますが、多くの場合、共同埋め込みスペースの通常と異常なインスタンスを区別できません。
さらに、ほとんどのZFSADアプローチは、医療タスクの調査が限られている産業ドメインに焦点を当てています。
これらの制限に対処するために、医療ドメインのZFSADの新しいフレームワークであるIQE-Clipを提案します。
テキストとインスタンスの両方の視覚情報の両方を統合するクエリの埋め込みが、異常のより効果的な指標として機能することを示します。
具体的には、クラスベースの学習可能なプロンプトトークンを導入して、クリップを医療環境に適切に適応させます。
さらに、両方のモダリティから領域レベルのコンテキスト情報を抽出し、異常に敏感な埋め込みの生成を可能にするインスタンス認識クエリモジュールを設計します。
6つの医療データセットでの広範な実験は、IQE-Clipがゼロショットと少数のショット設定の両方で最先端のパフォーマンスを達成することを示しています。
コードとデータは、\ href {https://github.com/hongh0/iqe-clip/} {このhttps url}で利用できます。
要約(オリジナル)
Recent advances in vision-language models, such as CLIP, have significantly improved performance in zero- and few-shot anomaly detection (ZFSAD) tasks. However, most existing CLIP-based methods assume prior knowledge of categories and rely on carefully designed prompts tailored to specific scenarios. While these text prompts capture semantic information in the textual space, they often fail to distinguish normal and anomalous instances in the joint embedding space. Moreover, most ZFSAD approaches focus on industrial domains, with limited exploration in medical tasks. To address these limitations, we propose IQE-CLIP, a novel framework for ZFSAD in the medical domain. We show that query embeddings integrating both textual and instance-aware visual information serve as more effective indicators of anomalies. Specifically, we introduce class-based and learnable prompting tokens to better adapt CLIP to the medical setting. Furthermore, we design an instance-aware query module that extracts region-level contextual information from both modalities, enabling the generation of anomaly-sensitive embeddings. Extensive experiments on six medical datasets demonstrate that IQE-CLIP achieves state-of-the-art performance in both zero-shot and few-shot settings. Code and data are available at \href{https://github.com/hongh0/IQE-CLIP/}{this https URL}.
arxiv情報
著者 | Hong Huang,Weixiang Sun,Zhijian Wu,Jingwen Niu,Donghuan Lu,Xian Wu,Yefeng Zheng |
発行日 | 2025-06-12 14:23:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google