Visual Adversarial Examples Jailbreak Large Language Models

要約

最近、大規模言語モデル (LLM) にビジョンを導入することへの関心が高まっています。
Flamingo、BLIP-2、GPT-4 などの大規模な視覚言語モデル (VLM) の急増は、視覚と言語の両方の基盤モデルにおける進歩の刺激的な収束を意味します。
しかし、この統合的アプローチに伴うリスクはほとんど検討されていません。
このホワイトペーパーでは、この傾向がもたらすセキュリティと安全への影響に光を当てます。
まず、追加の視覚入力空間の継続的かつ高次元の性質により、本質的にそれが敵対的な攻撃の肥沃な土壌となることを強調します。
これにより、LLM の攻撃対象領域が必然的に拡大します。
第 2 に、LLM の広範な機能により、視覚的な攻撃者に達成可能な敵対的目的の範囲が広がり、セキュリティ障害の影響が単なる誤分類を超えて拡大されることを強調します。
これらのリスクを解明するために、VLM の視覚入力空間における敵対的な例を研究します。
具体的には、有害な命令を拒否できる安全機構を組み込んだ MiniGPT-4 に対して、安全機構を回避してモデルの有害な動作を引き起こす可能性のある視覚的な敵対的な例を示します。
注目すべきことに、敵対的な例は、特定の社会グループに対して手動で厳選された狭い範囲の軽蔑的なコーパスに最適化されたとしても、モデルの安全メカニズムを普遍的に脱獄できることがわかりました。
このような敵対的な例が 1 つあるだけで、一般的に MiniGPT-4 の安全性が損なわれ、MiniGPT-4 がさまざまな有害な指示に注意を払い、最適化で使用される軽蔑的なコーパスを単に模倣するだけでなく、有害なコンテンツを生成できるようになります。
これらのリスクを明らかにすることで、私たちは包括的なリスク評価、堅牢な防御戦略、VLM を安全かつ安全に利用するための責任ある実践の実施が緊急に必要であることを強調します。

要約(オリジナル)

Recently, there has been a surge of interest in introducing vision into Large Language Models (LLMs). The proliferation of large Visual Language Models (VLMs), such as Flamingo, BLIP-2, and GPT-4, signifies an exciting convergence of advancements in both visual and language foundation models. Yet, the risks associated with this integrative approach are largely unexamined. In this paper, we shed light on the security and safety implications of this trend. First, we underscore that the continuous and high-dimensional nature of the additional visual input space intrinsically makes it a fertile ground for adversarial attacks. This unavoidably expands the attack surfaces of LLMs. Second, we highlight that the broad functionality of LLMs also presents visual attackers with a wider array of achievable adversarial objectives, extending the implications of security failures beyond mere misclassification. To elucidate these risks, we study adversarial examples in the visual input space of a VLM. Specifically, against MiniGPT-4, which incorporates safety mechanisms that can refuse harmful instructions, we present visual adversarial examples that can circumvent the safety mechanisms and provoke harmful behaviors of the model. Remarkably, we discover that adversarial examples, even if optimized on a narrow, manually curated derogatory corpus against specific social groups, can universally jailbreak the model’s safety mechanisms. A single such adversarial example can generally undermine MiniGPT-4’s safety, enabling it to heed a wide range of harmful instructions and produce harmful content far beyond simply imitating the derogatory corpus used in optimization. Unveiling these risks, we accentuate the urgent need for comprehensive risk assessments, robust defense strategies, and the implementation of responsible practices for the secure and safe utilization of VLMs.

arxiv情報

著者 Xiangyu Qi,Kaixuan Huang,Ashwinee Panda,Mengdi Wang,Prateek Mittal
発行日 2023-06-22 22:13:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク