Adversarial Attacks on Foundational Vision Models

要約

CLIP、ALIGN、DINOv2 など、大規模で事前トレーニング済みのタスクに依存しない基本的なビジョン モデルの開発は急速に進んでいます。実際、これらのモデルは下流で微調整する必要がなく、簡単に調整できる段階に近づいています。
ゼロショットまたは軽量プロービングヘッドで使用されます。
重要なのは、この規模での作業の複雑さを考えると、トレーニングを実行し、HuggingFace や torch.hub などの一元化されたプラットフォームでモデルを共有している組織が世界中で比較的少数であるというボトルネックがあります。
この作業の目標は、将来の設計をより堅牢にするために、これらのモデルのいくつかの重要な敵対的脆弱性を特定することです。
直感的には、私たちの攻撃は深い特徴表現を操作して、これらのオープンワールド対応モデルを使用してクローズドセットの下流タスクを解決するときに必要となる分布外 (OOD) 検出器を欺きます。
私たちの手法は、非常に低い知識仮定の脅威モデルに存在しながら、配布中 (ID) 画像 (ダウンストリーム タスクに関して) を OOD として予測したり、その逆を確実に予測したりすることができます。
私たちの攻撃は、ホワイトボックス設定とブラックボックス設定だけでなく、基本的なモデル タイプ間で転送された場合にも強力であることを示しています (CLIP を使用した DINOv2 攻撃など)。
この作業は、敵対的に堅牢な基礎ビジョン モデルに向けた長い旅の始まりにすぎません。

要約(オリジナル)

Rapid progress is being made in developing large, pretrained, task-agnostic foundational vision models such as CLIP, ALIGN, DINOv2, etc. In fact, we are approaching the point where these models do not have to be finetuned downstream, and can simply be used in zero-shot or with a lightweight probing head. Critically, given the complexity of working at this scale, there is a bottleneck where relatively few organizations in the world are executing the training then sharing the models on centralized platforms such as HuggingFace and torch.hub. The goal of this work is to identify several key adversarial vulnerabilities of these models in an effort to make future designs more robust. Intuitively, our attacks manipulate deep feature representations to fool an out-of-distribution (OOD) detector which will be required when using these open-world-aware models to solve closed-set downstream tasks. Our methods reliably make in-distribution (ID) images (w.r.t. a downstream task) be predicted as OOD and vice versa while existing in extremely low-knowledge-assumption threat models. We show our attacks to be potent in whitebox and blackbox settings, as well as when transferred across foundational model types (e.g., attack DINOv2 with CLIP)! This work is only just the beginning of a long journey towards adversarially robust foundational vision models.

arxiv情報

著者 Nathan Inkawhich,Gwendolyn McDonald,Ryan Luley
発行日 2023-08-28 14:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク