Adapting Contrastive Language-Image Pretrained (CLIP) Models for Out-of-Distribution Detection

要約

我々は、事前学習済み対照言語画像 (CLIP) モデルの適応に焦点を当て、視覚的分布外 (OOD) 検出のための事前学習済み特徴抽出器に関する包括的な実験研究を紹介します。
トレーニング データを微調整することなく、$4$ ベンチマークの CLIP モデルの分布内分類と教師なし OOD 検出の間に正の相関関係 ($R^2\geq0.92$) を確立できます。
さらに、視覚言語モデルを OOD 検出に適応させる \textit{pseudo-label probing} (PLP) と呼ばれる、新しいシンプルでスケーラブルな方法を提案します。
トレーニング セットの一連のラベル名が与えられると、PLP は、CLIP のテキスト エンコーダーから派生した疑似ラベルを使用して線形レイヤーをトレーニングします。
事前トレーニング済みモデルの OOD 検出の堅牢性をテストするために、敵対的サンプルを作成するための新しい機能ベースの敵対的 OOD データ操作アプローチを開発します。
興味深いことに、(i) PLP は、ImageNet に基づくすべての $5$ の大規模ベンチマークで、以前の最先端の \citep{ming2022mcm} よりも優れたパフォーマンスを示します。具体的には、最大の CLIP を使用した場合、平均 AUROC ゲインが 3.4\% です。
モデル (ViT-G)、(ii) CLIP アーキテクチャの場合、線形プローブが微調整よりも大幅に優れていることを示します (つまり、CLIP ViT-H は、すべての ImageNet ベースのベンチマークで平均 7.3\% AUROC の平均ゲインを達成します)。
(iii) 10 億パラメータの CLIP モデルは依然として、敵対的に操作された OOD 画像の検出に失敗しています。
コードと敵対者が作成したデータセットは一般に公開されます。

要約(オリジナル)

We present a comprehensive experimental study on pretrained feature extractors for visual out-of-distribution (OOD) detection, focusing on adapting contrastive language-image pretrained (CLIP) models. Without fine-tuning on the training data, we are able to establish a positive correlation ($R^2\geq0.92$) between in-distribution classification and unsupervised OOD detection for CLIP models in $4$ benchmarks. We further propose a new simple and scalable method called \textit{pseudo-label probing} (PLP) that adapts vision-language models for OOD detection. Given a set of label names of the training set, PLP trains a linear layer using the pseudo-labels derived from the text encoder of CLIP. To test the OOD detection robustness of pretrained models, we develop a novel feature-based adversarial OOD data manipulation approach to create adversarial samples. Intriguingly, we show that (i) PLP outperforms the previous state-of-the-art \citep{ming2022mcm} on all $5$ large-scale benchmarks based on ImageNet, specifically by an average AUROC gain of 3.4\% using the largest CLIP model (ViT-G), (ii) we show that linear probing outperforms fine-tuning by large margins for CLIP architectures (i.e. CLIP ViT-H achieves a mean gain of 7.3\% AUROC on average on all ImageNet-based benchmarks), and (iii) billion-parameter CLIP models still fail at detecting adversarially manipulated OOD images. The code and adversarially created datasets will be made publicly available.

arxiv情報

著者 Nikolas Adaloglou,Felix Michels,Tim Kaiser,Markus Kollmann
発行日 2023-11-09 10:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク