Can Large Language Models Automatically Jailbreak GPT-4V?

要約

GPT-4V は、マルチモーダルな情報を統合および処理する並外れた能力により、かなりの注目を集めています。
同時に、その顔認識機能により、プライバシー漏洩という新たな安全上の懸念が生じます。
研究者は RLHF や前処理フィルターを通じて安全性を調整する努力を行っていますが、依然として脆弱性が悪用される可能性があります。
私たちの調査では、プロンプト最適化からインスピレーションを得た革新的な自動ジェイルブレイク技術である AutoJailbreak を紹介します。
レッドチーム用の大規模言語モデル (LLM) を活用して脱獄プロンプトを改良し、弱から強のコンテキスト内学習プロンプトを採用して効率を高めます。
さらに、最適化時間とトークンの消費を最小限に抑えるために早期停止を組み込んだ効果的な検索方法を紹介します。
私たちの実験では、AutoJailbreak が従来の方法を大幅に上回り、95.3\% を超える攻撃成功率 (ASR) を達成していることが実証されました。
この研究は GPT-4V のセキュリティ強化に光を当て、GPT-4V の完全性を侵害するために LLM が悪用される可能性を強調しています。

要約(オリジナル)

GPT-4V has attracted considerable attention due to its extraordinary capacity for integrating and processing multimodal information. At the same time, its ability of face recognition raises new safety concerns of privacy leakage. Despite researchers’ efforts in safety alignment through RLHF or preprocessing filters, vulnerabilities might still be exploited. In our study, we introduce AutoJailbreak, an innovative automatic jailbreak technique inspired by prompt optimization. We leverage Large Language Models (LLMs) for red-teaming to refine the jailbreak prompt and employ weak-to-strong in-context learning prompts to boost efficiency. Furthermore, we present an effective search method that incorporates early stopping to minimize optimization time and token expenditure. Our experiments demonstrate that AutoJailbreak significantly surpasses conventional methods, achieving an Attack Success Rate (ASR) exceeding 95.3\%. This research sheds light on strengthening GPT-4V security, underscoring the potential for LLMs to be exploited in compromising GPT-4V integrity.

arxiv情報

著者 Yuanwei Wu,Yue Huang,Yixin Liu,Xiang Li,Pan Zhou,Lichao Sun
発行日 2024-07-23 17:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク