Adversarial Illusions in Multi-Modal Embeddings

要約

マルチモーダル埋め込みは、画像、音声、テキスト、ビデオなどを単一の埋め込み空間にエンコードし、モダリティ全体で表現を調整します (例: 犬の画像と吠える音を関連付けます)。
私たちは、マルチモーダル埋め込みが「敵対的幻想」と呼ばれる攻撃に対して脆弱になる可能性があることを示します。
画像や音声が与えられると、敵対者はそれを撹乱して、その埋め込みを別のモダリティで敵対者が選択した任意の入力に近づけることができます。
これにより、攻撃者はあらゆる画像や音声をあらゆるテキストと位置合わせすることが可能になります。
敵対的錯覚は埋め込み空間の近接性を利用するため、下流のタスクには依存しません。
ImageBind 埋め込みを使用して、特定の下流タスクの知識なしで生成された敵対的に調整された入力が、画像生成、テキスト生成、およびゼロショット分類をどのように誤解させるかを示します。

要約(オリジナル)

Multi-modal embeddings encode images, sounds, texts, videos, etc. into a single embedding space, aligning representations across modalities (e.g., associate an image of a dog with a barking sound). We show that multi-modal embeddings can be vulnerable to an attack we call ‘adversarial illusions.’ Given an image or a sound, an adversary can perturb it so as to make its embedding close to an arbitrary, adversary-chosen input in another modality. This enables the adversary to align any image and any sound with any text. Adversarial illusions exploit proximity in the embedding space and are thus agnostic to downstream tasks. Using ImageBind embeddings, we demonstrate how adversarially aligned inputs, generated without knowledge of specific downstream tasks, mislead image generation, text generation, and zero-shot classification.

arxiv情報

著者 Eugene Bagdasaryan,Rishi Jha,Tingwei Zhang,Vitaly Shmatikov
発行日 2023-10-06 10:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク