要約
大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって優れた熟練度を示していますが、LLM から有害な応答を引き出すように慎重に設計された、ジェイルブレイク攻撃として知られる敵対的なプロンプトに対して依然として脆弱です。
従来の方法は手動ヒューリスティックに依存しており、一般化可能性が限られています。
最適化ベースの攻撃は自動的ではありますが、不自然なジェイルブレイク プロンプトを生成することが多く、安全フィルターによって簡単に検出されたり、個別のトークンの最適化により高い計算オーバーヘッドが必要になったりします。
既存のジェイルブレイク手法の限界を目の当たりにして、完全なブラックボックス設定で敵対的サフィックスの作成を改善するために、人間が判読できるプロンプト生成と潜在ベイジアン最適化 (LBO) を組み合わせた新しいフレームワークである Generative Adversarial Suffix Prompter (GASP) を紹介します。
GASP は、LBO を利用して、連続的な埋め込み空間を効率的に探索することで敵対的なサフィックスを作成し、モデルを段階的に最適化して攻撃の有効性を向上させながら、ターゲットを絞った反復改良手順を通じて迅速な一貫性のバランスをとります。
私たちの実験では、GASP が自然な脱獄プロンプトを生成し、攻撃の成功率を大幅に向上させ、トレーニング時間を短縮し、推論速度を加速できるため、レッドチーム LLM にとって効率的でスケーラブルなソリューションとなることが示されています。
要約(オリジナル)
Large Language Models (LLMs) have shown impressive proficiency across a range of natural language processing tasks yet remain vulnerable to adversarial prompts, known as jailbreak attacks, carefully designed to elicit harmful responses from LLMs. Traditional methods rely on manual heuristics, which suffer from limited generalizability. While being automatic, optimization-based attacks often produce unnatural jailbreak prompts that are easy to detect by safety filters or require high computational overhead due to discrete token optimization. Witnessing the limitations of existing jailbreak methods, we introduce Generative Adversarial Suffix Prompter (GASP), a novel framework that combines human-readable prompt generation with Latent Bayesian Optimization (LBO) to improve adversarial suffix creation in a fully black-box setting. GASP leverages LBO to craft adversarial suffixes by efficiently exploring continuous embedding spaces, gradually optimizing the model to improve attack efficacy while balancing prompt coherence through a targeted iterative refinement procedure. Our experiments show that GASP can generate natural jailbreak prompts, significantly improving attack success rates, reducing training times, and accelerating inference speed, thus making it an efficient and scalable solution for red-teaming LLMs.
arxiv情報
著者 | Advik Raj Basani,Xiao Zhang |
発行日 | 2024-11-21 14:00:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google