FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

要約

人工知能生成コンテンツ (AIGC) の安全性の確保は、人工知能 (AI) コミュニティにおける長年のテーマであり、大規模言語モデル (LLM) に関連する安全性の懸念は広く調査されてきました。
最近、大規模ビジョン言語モデル (VLM) は、LLM に基づいて構築されていますが、追加のモダリティ (画像など) を組み込むことができるため、前例のない革命を表しています。
ただし、VLM の安全性には体系的な評価が不足しており、基礎となる LLM によって提供される安全性の保証が過信されている可能性があります。
この論文では、追加のモダリティ モジュールの導入が予期せぬ AI の安全性の問題につながることを実証するために、VLM に対する単純かつ効果的なジェイルブレイク アルゴリズムである FigStep を提案します。
FigStep はテキストの有害な指示を直接供給するのではなく、タイポグラフィを通じて有害なコンテンツを画像に変換し、VLM のテキスト モジュール内の安全調整をバイパスし、一般的な AI 安全ポリシーに違反する安全でない応答を VLM に出力させるようにします。
私たちの評価では、有望なオープンソース VLM の 3 ファミリ、つまり LLaVA、MiniGPT4、CogVLM (合計 6 つの VLM) によって生成された 46,500 のモデル応答を手動でレビューします。
実験結果は、FigStep が 10 トピックの 500 の有害なクエリに対して平均 82.50% の攻撃成功率を達成できることを示しています。
さらに、FigStep の方法論が GPT-4V をジェイルブレイクすることもできることを実証します。GPT-4V はすでに OCR 検出器を利用して有害なクエリをフィルタリングしています。
何よりも、私たちの研究は、VLM が脱獄攻撃に対して脆弱であることを明らかにしており、これは視覚的モダリティとテキストモダリティの間の新たな安全調整の必要性を強調しています。

要約(オリジナル)

Ensuring the safety of artificial intelligence-generated content (AIGC) is a longstanding topic in the artificial intelligence (AI) community, and the safety concerns associated with Large Language Models (LLMs) have been widely investigated. Recently, large vision-language models (VLMs) represent an unprecedented revolution, as they are built upon LLMs but can incorporate additional modalities (e.g., images). However, the safety of VLMs lacks systematic evaluation, and there may be an overconfidence in the safety guarantees provided by their underlying LLMs. In this paper, to demonstrate that introducing additional modality modules leads to unforeseen AI safety issues, we propose FigStep, a straightforward yet effective jailbreaking algorithm against VLMs. Instead of feeding textual harmful instructions directly, FigStep converts the harmful content into images through typography to bypass the safety alignment within the textual module of the VLMs, inducing VLMs to output unsafe responses that violate common AI safety policies. In our evaluation, we manually review 46,500 model responses generated by 3 families of the promising open-source VLMs, i.e., LLaVA, MiniGPT4, and CogVLM (a total of 6 VLMs). The experimental results show that FigStep can achieve an average attack success rate of 82.50% on 500 harmful queries in 10 topics. Moreover, we demonstrate that the methodology of FigStep can even jailbreak GPT-4V, which already leverages an OCR detector to filter harmful queries. Above all, our work reveals that VLMs are vulnerable to jailbreaking attacks, which highlights the necessity of novel safety alignments between visual and textual modalities.

arxiv情報

著者 Yichen Gong,Delong Ran,Jinyuan Liu,Conglei Wang,Tianshuo Cong,Anyu Wang,Sisi Duan,Xiaoyun Wang
発行日 2023-12-13 17:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク