A Realistic Threat Model for Large Language Model Jailbreaks

要約

安全に調整された LLM から有害な応答を取得するために、多数の脱獄攻撃が提案されています。
元の設定では、これらのメソッドはすべて、ターゲットの出力を強制することにほぼ成功していますが、攻撃の流暢さと計算量は大幅に異なります。
この研究では、これらの手法を原理的に比較するための統一脅威モデルを提案します。
私たちの脅威モデルは、複雑さの制約を組み合わせ、ジェイルブレイクが自然テキストからどれだけ逸脱するか、および計算量を総 FLOP で測定します。
前者の場合、1T トークンに N グラム モデルを構築します。これにより、モデルベースの複雑性とは対照的に、LLM に依存せず、本質的に解釈可能な評価が可能になります。
私たちは一般的な攻撃をこの新しい現実的な脅威モデルに適応させ、初めてこれらの攻撃を同等の立場でベンチマークします。
厳密な比較の結果、安全性が調整された最新のモデルに対する攻撃の成功率が以前に提示されたものよりも低いことが判明しただけでなく、個別の最適化に基づいた攻撃が最近の LLM ベースの攻撃よりも大幅に優れていることがわかりました。
当社の脅威モデルは本質的に解釈可能であるため、ジェイルブレイク攻撃の包括的な分析と比較が可能です。
私たちは、効果的な攻撃が頻度の低い N グラムを悪用し悪用し、現実世界のテキストに存在しない N グラムまたはまれな N グラムを選択することを発見しました。
コード データセットに固有です。

要約(オリジナル)

A plethora of jailbreaking attacks have been proposed to obtain harmful responses from safety-tuned LLMs. In their original settings, these methods all largely succeed in coercing the target output, but their attacks vary substantially in fluency and computational effort. In this work, we propose a unified threat model for the principled comparison of these methods. Our threat model combines constraints in perplexity, measuring how far a jailbreak deviates from natural text, and computational budget, in total FLOPs. For the former, we build an N-gram model on 1T tokens, which, in contrast to model-based perplexity, allows for an LLM-agnostic and inherently interpretable evaluation. We adapt popular attacks to this new, realistic threat model, with which we, for the first time, benchmark these attacks on equal footing. After a rigorous comparison, we not only find attack success rates against safety-tuned modern models to be lower than previously presented but also find that attacks based on discrete optimization significantly outperform recent LLM-based attacks. Being inherently interpretable, our threat model allows for a comprehensive analysis and comparison of jailbreak attacks. We find that effective attacks exploit and abuse infrequent N-grams, either selecting N-grams absent from real-world text or rare ones, e.g. specific to code datasets.

arxiv情報

著者 Valentyn Boreiko,Alexander Panfilov,Vaclav Voracek,Matthias Hein,Jonas Geiping
発行日 2024-10-21 17:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク