Fast Certification of Vision-Language Models Using Incremental Randomized Smoothing

要約

CLIPのようなディープビジョン-言語モデルの主な利点は、ゼロショットのオープンボキャブラリー分類を可能にすることである。しかし、CLIPベースのゼロショット分類器は、様々なドメインシフトにおいて競争力のある性能を発揮する一方で、敵対的な攻撃に対して非常に脆弱なままである。そのため、このようなモデルのロバスト性を確保することは、信頼性の高い実利用への展開に不可欠である。 本研究では、CLIPのようなオープン語彙モデルのために設計された、ランダム化平滑化技術を用いた高速な認証手法である、オープン語彙認証(OVC)を紹介する。プロンプトの基本「訓練」セットと、それに対応するCLIP分類器が与えられた場合、OVCは、新しいプロンプトを持つ分類器は、基本訓練セットの近くの分類器の摂動バージョンと見なすことができるという観察に依存する。従って、OVCは、漸進的ランダム化平滑化のバリエーションを用いて、新奇な分類器を迅速に認証することができる。キャッシュのトリックを用いることで、新規プロンプトの認証プロセスにおいて約2桁の高速化を達成する。さらなる(発見的な)高速化を達成するために、OVCは、ビジョンバックボーンを通るフォワードパスによるサンプリングの必要性を回避して、多変量正規分布を用いて、与えられた入力における埋め込み空間を近似する。CIFAR-10とImageNetのテストデータセットを用いた複数の視覚言語バックボーンを用いた実験評価により、OVCの有効性を実証する。

要約(オリジナル)

A key benefit of deep vision-language models such as CLIP is that they enable zero-shot open vocabulary classification; the user has the ability to define novel class labels via natural language prompts at inference time. However, while CLIP-based zero-shot classifiers have demonstrated competitive performance across a range of domain shifts, they remain highly vulnerable to adversarial attacks. Therefore, ensuring the robustness of such models is crucial for their reliable deployment in the wild. In this work, we introduce Open Vocabulary Certification (OVC), a fast certification method designed for open-vocabulary models like CLIP via randomized smoothing techniques. Given a base ‘training’ set of prompts and their corresponding certified CLIP classifiers, OVC relies on the observation that a classifier with a novel prompt can be viewed as a perturbed version of nearby classifiers in the base training set. Therefore, OVC can rapidly certify the novel classifier using a variation of incremental randomized smoothing. By using a caching trick, we achieve approximately two orders of magnitude acceleration in the certification process for novel prompts. To achieve further (heuristic) speedups, OVC approximates the embedding space at a given input using a multivariate normal distribution bypassing the need for sampling via forward passes through the vision backbone. We demonstrate the effectiveness of OVC on through experimental evaluation using multiple vision-language backbones on the CIFAR-10 and ImageNet test datasets.

arxiv情報

著者 A K Nirala,A Joshi,C Hegde,S Sarkar
発行日 2024-01-04 09:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク