IQE-CLIP: Instance-aware Query Embedding for Zero-/Few-shot Anomaly Detection in Medical Domain

要約

最近、クリップなどのビジョン言語モデルの急速な進歩は、ゼロ/少ないショットの異常検出(ZFSAD)タスクの大きな進歩につながります。
ただし、ほとんどの既存のクリップベースのZFSADメソッドは、一般にカテゴリの事前知識を想定しており、特定のシナリオに合わせた慎重に作成されたプロンプトに依存しています。
このような細心の注意を払って設計されたテキストプロンプトは、テキスト空間でセマンティック情報を効果的にキャプチャしますが、ジョイント埋め込みスペース内の通常と異常なインスタンスを区別していません。
さらに、これらのZFSADメソッドは、主に産業シナリオで調査されており、医療タスクにはほとんど努力されていません。
この目的のために、IQE-Clipとして示される医療ドメインのZFSADタスクの革新的なフレームワークを提案します。
テキストとインスタンスの両方の視覚情報の両方を組み込んだクエリの埋め込みが、異常のより良い指標であることを明らかにします。
具体的には、最初にクラスベースのプロンプトトークンと、医療ドメインへのクリップのより良い適応のためにトークンのプロンプトのトークンを導入できるようにします。
次に、インスタンスアウェアクエリモジュール(IQM)を設計して、テキストプロンプトと視覚的特徴の両方から領域レベルのコンテキスト情報を抽出し、異常に敏感なクエリ埋め込みの生成を可能にします。
6つの医療データセットで実施された広範な実験は、IQE-Clipがゼロショットと少数のショットタスクの両方で最先端のパフォーマンスを達成することを示しています。
https://github.com/hongh0/iqe-clip/でコードとデータをリリースします。

要約(オリジナル)

Recently, the rapid advancements of vision-language models, such as CLIP, leads to significant progress in zero-/few-shot anomaly detection (ZFSAD) tasks. However, most existing CLIP-based ZFSAD methods commonly assume prior knowledge of categories and rely on carefully crafted prompts tailored to specific scenarios. While such meticulously designed text prompts effectively capture semantic information in the textual space, they fall short of distinguishing normal and anomalous instances within the joint embedding space. Moreover, these ZFSAD methods are predominantly explored in industrial scenarios, with few efforts conducted to medical tasks. To this end, we propose an innovative framework for ZFSAD tasks in medical domain, denoted as IQE-CLIP. We reveal that query embeddings, which incorporate both textual and instance-aware visual information, are better indicators for abnormalities. Specifically, we first introduce class-based prompting tokens and learnable prompting tokens for better adaptation of CLIP to the medical domain. Then, we design an instance-aware query module (IQM) to extract region-level contextual information from both text prompts and visual features, enabling the generation of query embeddings that are more sensitive to anomalies. Extensive experiments conducted on six medical datasets demonstrate that IQE-CLIP achieves state-of-the-art performance on both zero-shot and few-shot tasks. We release our code and data at https://github.com/hongh0/IQE-CLIP/.

arxiv情報

著者 Hong Huang,Weixiang Sun,Zhijian Wu,Jingwen Niu,Donghuan Lu,Xian Wu,Yefeng Zheng
発行日 2025-06-13 03:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク