Open Sesame! Universal Black Box Jailbreaking of Large Language Models

要約

役立つ安全な応答を提供するように設計された大規模言語モデル (LLM) は、多くの場合、ユーザーの意図や社会的なガイドラインに合わせるための調整テクニックに依存します。
残念ながら、この調整は、LLM の出力を意図しない目的で操作しようとする悪意のある攻撃者によって悪用される可能性があります。
この論文では、モデルのアーキテクチャとパラメーターにアクセスできない場合に、遺伝的アルゴリズム (GA) を使用して LLM を操作する新しいアプローチを紹介します。
GA 攻撃は、普遍的な敵対的プロンプトを最適化することによって機能し、ユーザーのクエリと組み合わせると、攻撃対象のモデルの調整を混乱させ、意図しない潜在的に有害な出力をもたらします。
私たちの新しいアプローチは、モデルの応答が予想される動作から逸脱するインスタンスを明らかにすることで、モデルの限界と脆弱性を体系的に明らかにします。
広範な実験を通じて、私たちは技術の有効性を実証し、LLM と人間の意図との整合性を評価および強化するための診断ツールを提供することで、責任ある AI 開発に関する進行中の議論に貢献します。
私たちの知る限り、これは最初の自動化されたユニバーサル ブラック ボックス ジェイルブレイク攻撃です。

要約(オリジナル)

Large language models (LLMs), designed to provide helpful and safe responses, often rely on alignment techniques to align with user intent and social guidelines. Unfortunately, this alignment can be exploited by malicious actors seeking to manipulate an LLM’s outputs for unintended purposes. In this paper we introduce a novel approach that employs a genetic algorithm (GA) to manipulate LLMs when model architecture and parameters are inaccessible. The GA attack works by optimizing a universal adversarial prompt that — when combined with a user’s query — disrupts the attacked model’s alignment, resulting in unintended and potentially harmful outputs. Our novel approach systematically reveals a model’s limitations and vulnerabilities by uncovering instances where its responses deviate from expected behavior. Through extensive experiments we demonstrate the efficacy of our technique, thus contributing to the ongoing discussion on responsible AI development by providing a diagnostic tool for evaluating and enhancing alignment of LLMs with human intent. To our knowledge this is the first automated universal black box jailbreak attack.

arxiv情報

著者 Raz Lapid,Ron Langberg,Moshe Sipper
発行日 2024-08-05 11:34:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.NE パーマリンク