要約
大規模言語モデル (LLM) は急速に開発されており、その広範な展開の重要な要素は安全関連の調整です。
多くのレッドチームの取り組みは LLM のジェイルブレイクを目的としていますが、その中でも Greedy Coowned Gradient (GCG) 攻撃の成功により、最適化ベースのジェイルブレイク技術の研究への関心が高まっています。
GCG は重要なマイルストーンではありますが、その攻撃効率は依然として満足のいくものではありません。
このペーパーでは、GCG のような最適化ベースのジェイルブレイクのためのいくつかの改良された (経験に基づいた) テクニックを紹介します。
まず、「Sure」という単一のターゲット テンプレートが GCG の攻撃パフォーマンスを大幅に制限していることがわかりました。
これを考慮して、LLM を誤解させるための有害な自己暗示や誘導を含む多様なターゲット テンプレートを適用することを提案します。
さらに、最適化の側面から、収束を加速するための GCG の自動複数座標更新戦略 (つまり、各ステップで置き換えるトークンの数を適応的に決定する) や、簡単から難しい初期化などのトリックを提案します。
次に、これらの改良されたテクノロジーを組み合わせて、$\mathcal{I}$-GCG と呼ばれる効率的な脱獄方法を開発します。
私たちの実験では、一連のベンチマーク (NeurIPS 2023 Red Teaming Track など) で評価します。
この結果は、私たちの改良された技術が GCG が最先端の脱獄攻撃を上回り、ほぼ 100% の攻撃成功率を達成できることを示しています。
コードは https://github.com/jiaxiaojunQAQ/I-GCG で公開されています。
要約(オリジナル)
Large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the Greedy Coordinate Gradient (GCG) attack’s success has led to a growing interest in the study of optimization-based jailbreaking techniques. Although GCG is a significant milestone, its attacking efficiency remains unsatisfactory. In this paper, we present several improved (empirical) techniques for optimization-based jailbreaks like GCG. We first observe that the single target template of ‘Sure’ largely limits the attacking performance of GCG; given this, we propose to apply diverse target templates containing harmful self-suggestion and/or guidance to mislead LLMs. Besides, from the optimization aspects, we propose an automatic multi-coordinate updating strategy in GCG (i.e., adaptively deciding how many tokens to replace in each step) to accelerate convergence, as well as tricks like easy-to-hard initialisation. Then, we combine these improved technologies to develop an efficient jailbreak method, dubbed $\mathcal{I}$-GCG. In our experiments, we evaluate on a series of benchmarks (such as NeurIPS 2023 Red Teaming Track). The results demonstrate that our improved techniques can help GCG outperform state-of-the-art jailbreaking attacks and achieve nearly 100% attack success rate. The code is released at https://github.com/jiaxiaojunQAQ/I-GCG.
arxiv情報
著者 | Xiaojun Jia,Tianyu Pang,Chao Du,Yihao Huang,Jindong Gu,Yang Liu,Xiaochun Cao,Min Lin |
発行日 | 2024-05-31 17:07:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google