要約
大規模な言語モデル(LLM)がますます普及するにつれて、敵対的な誤用に対する堅牢性が重要であることを保証します。
このペーパーでは、LLMセーフガードを評価および強化するためのステルスジェイルブレイクプロンプトを生成するための高度なアプローチである、剪定による攻撃のグラフ)フレームワークを紹介します。
ギャップは、攻撃パス全体で知識共有を可能にする相互接続されたグラフ構造を実装することにより、既存のツリーベースのLLM脱獄法の制限に対処します。
私たちの実験的評価は、既存の手法に対するギャップの優位性を示しており、攻撃の成功率が20.8%増加し、クエリコストを62.7%削減します。
ギャップは、オープンLLMとクローズドLLMの両方を攻撃するための最先端の方法を一貫して上回り、攻撃成功率は96%を超えています。
さらに、自動化されたシード生成用のGAP-AUTOなどの特殊なバリアント、マルチモーダル攻撃用のGAP-VLMを提示します。
ギャップ生成プロンプトは、コンテンツモデレーションシステムの改善に非常に効果的であり、微調整に使用した場合、真の陽性検出率を108.5%、精度を183.6%増加させます。
実装はhttps://github.com/dsbuddy/gap-llm-safetyで入手できます。
要約(オリジナル)
As large language models (LLMs) become increasingly prevalent, ensuring their robustness against adversarial misuse is crucial. This paper introduces the GAP (Graph of Attacks with Pruning) framework, an advanced approach for generating stealthy jailbreak prompts to evaluate and enhance LLM safeguards. GAP addresses limitations in existing tree-based LLM jailbreak methods by implementing an interconnected graph structure that enables knowledge sharing across attack paths. Our experimental evaluation demonstrates GAP’s superiority over existing techniques, achieving a 20.8% increase in attack success rates while reducing query costs by 62.7%. GAP consistently outperforms state-of-the-art methods for attacking both open and closed LLMs, with attack success rates of >96%. Additionally, we present specialized variants like GAP-Auto for automated seed generation and GAP-VLM for multimodal attacks. GAP-generated prompts prove highly effective in improving content moderation systems, increasing true positive detection rates by 108.5% and accuracy by 183.6% when used for fine-tuning. Our implementation is available at https://github.com/dsbuddy/GAP-LLM-Safety.
arxiv情報
著者 | Daniel Schwartz,Dmitriy Bespalov,Zhe Wang,Ninad Kulkarni,Yanjun Qi |
発行日 | 2025-06-13 15:44:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google