Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

要約

大規模言語モデル (LLM) は急速に開発されており、その広範な展開の重要な要素は安全関連の調整です。
多くのレッドチームの取り組みは LLM のジェイルブレイクを目的としていますが、その中でも Greedy Coowned Gradient (GCG) 攻撃の成功により、最適化ベースのジェイルブレイク技術の研究への関心が高まっています。
GCG は重要なマイルストーンではありますが、その攻撃効率は依然として満足のいくものではありません。
このペーパーでは、GCG のような最適化ベースのジェイルブレイクのためのいくつかの改良された (経験に基づいた) テクニックを紹介します。
まず、「Sure」という単一のターゲット テンプレートが GCG の攻撃パフォーマンスを大幅に制限していることがわかりました。
これを考慮して、LLM を誤解させるための有害な自己暗示や誘導を含む多様なターゲット テンプレートを適用することを提案します。
さらに、最適化の側面から、収束を加速するための GCG の自動複数座標更新戦略 (つまり、各ステップで置き換えるトークンの数を適応的に決定する) や、簡単から難しい初期化などのトリックを提案します。
次に、これらの改良されたテクノロジーを組み合わせて、$\mathcal{I}$-GCG と呼ばれる効率的な脱獄方法を開発します。
私たちの実験では、一連のベンチマーク (NeurIPS 2023 Red Teaming Track など) で評価します。
この結果は、私たちの改良された技術が GCG が最先端の脱獄攻撃を上回り、ほぼ 100% の攻撃成功率を達成できることを示しています。
コードは https://github.com/jiaxiaojunQAQ/I-GCG で公開されています。

要約(オリジナル)

Large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the Greedy Coordinate Gradient (GCG) attack’s success has led to a growing interest in the study of optimization-based jailbreaking techniques. Although GCG is a significant milestone, its attacking efficiency remains unsatisfactory. In this paper, we present several improved (empirical) techniques for optimization-based jailbreaks like GCG. We first observe that the single target template of ‘Sure’ largely limits the attacking performance of GCG; given this, we propose to apply diverse target templates containing harmful self-suggestion and/or guidance to mislead LLMs. Besides, from the optimization aspects, we propose an automatic multi-coordinate updating strategy in GCG (i.e., adaptively deciding how many tokens to replace in each step) to accelerate convergence, as well as tricks like easy-to-hard initialisation. Then, we combine these improved technologies to develop an efficient jailbreak method, dubbed $\mathcal{I}$-GCG. In our experiments, we evaluate on a series of benchmarks (such as NeurIPS 2023 Red Teaming Track). The results demonstrate that our improved techniques can help GCG outperform state-of-the-art jailbreaking attacks and achieve nearly 100% attack success rate. The code is released at https://github.com/jiaxiaojunQAQ/I-GCG.

arxiv情報

著者 Xiaojun Jia,Tianyu Pang,Chao Du,Yihao Huang,Jindong Gu,Yang Liu,Xiaochun Cao,Min Lin
発行日 2024-05-31 17:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク