FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

要約

GPT-4V のような大規模ビジョン言語モデル (VLM) は、人工知能 (AI) の分野における前例のない革命を表しています。
シングルモーダル大規模言語モデル (LLM) と比較して、VLM は追加のモダリティ (画像など) を組み込むことにより、より多用途な機能を備えています。
一方、AI コミュニティでは、LLaVA や MiniGPT4 などのオープンソース VLM の開発に対する熱意が高まっていますが、これらは厳密な安全性評価を受けていません。
この論文では、より多くのモダリティが予期しない AI の安全性の問題につながることを実証するために、VLM に対する新しいジェイルブレイク フレームワークである FigStep を提案します。
FigStep は、画像チャネルを通じて有害な命令を VLM にフィードし、次に無害なテキスト プロンプトを使用して、一般的な AI 安全ポリシーに違反するコンテンツを出力するように VLM を誘導します。
私たちの実験結果は、FigStep が人気のオープンソース VLM の 2 つのファミリー、LLaVA および MiniGPT4 (合計 5 つの VLM) にわたって平均 94.8% の攻撃成功率を達成できることを示しています。
さらに、FigStep の方法論が GPT-4V をジェイルブレイクすることもできることを実証します。GPT-4V は、有害なクエリをフィルタリングするためにすでにいくつかのシステムレベルのメカニズムを活用しています。
何よりも、私たちの実験結果は、VLM が脱獄攻撃に対して脆弱であることを明らかにしており、これは視覚的モダリティとテキストモダリティの間の新たな安全調整の必要性を強調しています。

要約(オリジナル)

Large vision-language models (VLMs) like GPT-4V represent an unprecedented revolution in the field of artificial intelligence (AI). Compared to single-modal large language models (LLMs), VLMs possess more versatile capabilities by incorporating additional modalities (e.g., images). Meanwhile, there’s a rising enthusiasm in the AI community to develop open-source VLMs, such as LLaVA and MiniGPT4, which, however, have not undergone rigorous safety assessment. In this paper, to demonstrate that more modalities lead to unforeseen AI safety issues, we propose FigStep, a novel jailbreaking framework against VLMs. FigStep feeds harmful instructions into VLMs through the image channel and then uses benign text prompts to induce VLMs to output contents that violate common AI safety policies. Our experimental results show that FigStep can achieve an average attack success rate of 94.8% across 2 families of popular open-source VLMs, LLaVA and MiniGPT4 (a total of 5 VLMs). Moreover, we demonstrate that the methodology of FigStep can even jailbreak GPT-4V, which already leverages several system-level mechanisms to filter harmful queries. Above all, our experimental results reveal that VLMs are vulnerable to jailbreaking attacks, which highlights the necessity of novel safety alignments between visual and textual modalities.

arxiv情報

著者 Yichen Gong,Delong Ran,Jinyuan Liu,Conglei Wang,Tianshuo Cong,Anyu Wang,Sisi Duan,Xiaoyun Wang
発行日 2023-11-09 18:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク