Fast Certification of Vision-Language Models Using Incremental Randomized Smoothing

要約

CLIP などのディープ ビジョン言語モデルの主な利点は、ゼロショットのオープン語彙分類が可能になることです。
ユーザーは、推論時に自然言語プロンプトを介して新しいクラス ラベルを定義できます。
ただし、CLIP ベースのゼロショット分類器は、さまざまなドメイン シフトにわたって競争力のあるパフォーマンスを実証していますが、依然として敵対的な攻撃に対して非常に脆弱です。
したがって、そのようなモデルの堅牢性を確保することは、実際に信頼性の高い展開を行うために非常に重要です。
この研究では、ランダム化された平滑化技術を介して CLIP のようなオープン語彙モデル向けに設計された高速認証方法である Open Vocabulary Certification (OVC) を紹介します。
プロンプトの基本「トレーニング」セットと、それに対応する認定済みの CLIP 分類子が与えられると、OVC は、新しいプロンプトを持つ分類子は、基本トレーニング セット内の近くの分類子の摂動バージョンと見なすことができるという観察に依存します。
したがって、OVC は、増分ランダム化平滑化のバリエーションを使用して、新しい分類子を迅速に認証できます。
キャッシュ トリックを使用することにより、新しいプロンプトの認証プロセスが約 2 桁高速化されます。
さらなる(ヒューリスティックな)高速化を達成するために、OVC は、ビジョン バックボーンを通る前方パスによるサンプリングの必要性をバイパスし、多変量正規分布を使用して特定の入力での埋め込み空間を近似します。
CIFAR-10 および ImageNet テスト データセットで複数のビジョン言語バックボーンを使用した実験評価を通じて、OVC の有効性を実証します。

要約(オリジナル)

A key benefit of deep vision-language models such as CLIP is that they enable zero-shot open vocabulary classification; the user has the ability to define novel class labels via natural language prompts at inference time. However, while CLIP-based zero-shot classifiers have demonstrated competitive performance across a range of domain shifts, they remain highly vulnerable to adversarial attacks. Therefore, ensuring the robustness of such models is crucial for their reliable deployment in the wild. In this work, we introduce Open Vocabulary Certification (OVC), a fast certification method designed for open-vocabulary models like CLIP via randomized smoothing techniques. Given a base ‘training’ set of prompts and their corresponding certified CLIP classifiers, OVC relies on the observation that a classifier with a novel prompt can be viewed as a perturbed version of nearby classifiers in the base training set. Therefore, OVC can rapidly certify the novel classifier using a variation of incremental randomized smoothing. By using a caching trick, we achieve approximately two orders of magnitude acceleration in the certification process for novel prompts. To achieve further (heuristic) speedups, OVC approximates the embedding space at a given input using a multivariate normal distribution bypassing the need for sampling via forward passes through the vision backbone. We demonstrate the effectiveness of OVC on through experimental evaluation using multiple vision-language backbones on the CIFAR-10 and ImageNet test datasets.

arxiv情報

著者 A K Nirala,A Joshi,C Hegde,S Sarkar
発行日 2023-11-15 15:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク