要約
外れ方(OOD)検出は、既知のカテゴリと既知のカテゴリを区別することを目的としており、実際のシナリオで顕著になりました。
最近、Vision-Language Models(VLM)の出現により、少数のショットチューニングを通じてVLMのOOD検出の強化への関心が高まりました。
ただし、既存の方法は、主にグローバルプロンプトの最適化に焦点を当てており、外れ値に関するローカル情報の洗練された利用を無視しています。
これに動機付けられて、私たちはグローバルなプロンプトをフリーズし、ローカルプロンプトの粗から洗練されたチューニングパラダイムであるLocal-Promptを導入して、ローカルプロンプトによる地域の強化を強調しています。
私たちの方法は、2つの不可欠なコンポーネントで構成されています。グローバルプロンプトガイド付きネガティブ増加と局所促進促進地域正規化。
前者は、否定的な増強を組み込むための指針として、凍結した粗いグローバルプロンプトを利用して、地元の外れ値の知識を活用します。
後者は、訓練可能なローカルプロンプトと地域の正則化を採用して、ローカル情報を効果的にキャプチャし、外れ値の識別を支援します。
また、OOD検出の濃縮を強化するために、地域関連のメトリックを提案します。
さらに、私たちのアプローチはローカルプロンプトのみを強化することを探求するため、パフォーマンスを向上させるための推論中に訓練されたグローバルプロンプトとシームレスに統合できます。
包括的な実験は、私たちの方法の有効性と可能性を示しています。
特に、我々の方法は、挑戦的なImagenet-1Kデータセットの4ショットチューニングで、最先端の方法に対して平均FPR95を5.17%削減し、以前の方法の16ショット結果を上回ることさえあります。
コードはhttps://github.com/aurorazengfh/local-promptでリリースされます。
要約(オリジナル)
Out-of-Distribution (OOD) detection, aiming to distinguish outliers from known categories, has gained prominence in practical scenarios. Recently, the advent of vision-language models (VLM) has heightened interest in enhancing OOD detection for VLM through few-shot tuning. However, existing methods mainly focus on optimizing global prompts, ignoring refined utilization of local information with regard to outliers. Motivated by this, we freeze global prompts and introduce Local-Prompt, a novel coarse-to-fine tuning paradigm to emphasize regional enhancement with local prompts. Our method comprises two integral components: global prompt guided negative augmentation and local prompt enhanced regional regularization. The former utilizes frozen, coarse global prompts as guiding cues to incorporate negative augmentation, thereby leveraging local outlier knowledge. The latter employs trainable local prompts and a regional regularization to capture local information effectively, aiding in outlier identification. We also propose regional-related metric to empower the enrichment of OOD detection. Moreover, since our approach explores enhancing local prompts only, it can be seamlessly integrated with trained global prompts during inference to boost the performance. Comprehensive experiments demonstrate the effectiveness and potential of our method. Notably, our method reduces average FPR95 by 5.17% against state-of-the-art method in 4-shot tuning on challenging ImageNet-1k dataset, even outperforming 16-shot results of previous methods. Code is released at https://github.com/AuroraZengfh/Local-Prompt.
arxiv情報
著者 | Fanhu Zeng,Zhen Cheng,Fei Zhu,Hongxin Wei,Xu-Yao Zhang |
発行日 | 2025-02-14 15:58:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google