要約
脱獄は、大規模な言語モデル(LLM)の安全性と信頼性に関する研究の中心的な焦点でしたが、これらの攻撃の根底にあるメカニズムはよく理解されていません。
以前の研究では、主に脱獄の試みとモデルの拒否を検出するための線形方法に依存していましたが、脱獄につながるプロンプトで線形と非線形の両方の特徴を調べることにより、異なるアプローチを採用しています。
まず、35の多様な攻撃方法にまたがる10,800の脱獄試みで構成される新しいデータセットを紹介します。
このデータセットを活用すると、プローブをトレーニングして、プロンプトトークンに対応する潜在的な表現を使用して、失敗した脱獄から成功を分類します。
特に、プローブが脱獄の成功を予測する際に高い精度を達成したとしても、そのパフォーマンスは目に見えない攻撃方法に一般化できないことが多いことがわかります。
これは、異なる脱獄戦略が異なる非線形の非統一的な機能を活用することを明らかにしています。
次に、非線形プローブがステアリングモデルの動作のための強力なツールを提供することを実証します。
具体的には、これらのプローブを使用して、ターゲットを絞った潜在スペースの摂動をガイドし、脱獄に対するモデルの堅牢性を効果的に調節することができます。
全体として、私たちの調査結果は、LLMの脆弱性の背後にあるメカニズムの微妙な理解の重要性を強調して、脱獄が線形または単純な普遍的な迅速な特徴だけで完全に理解できるという仮定に挑戦します。
要約(オリジナル)
Jailbreaks have been a central focus of research regarding the safety and reliability of large language models (LLMs), yet the mechanisms underlying these attacks remain poorly understood. While previous studies have predominantly relied on linear methods to detect jailbreak attempts and model refusals, we take a different approach by examining both linear and non-linear features in prompts that lead to successful jailbreaks. First, we introduce a novel dataset comprising 10,800 jailbreak attempts spanning 35 diverse attack methods. Leveraging this dataset, we train probes to classify successful from unsuccessful jailbreaks using the latent representations corresponding to prompt tokens. Notably, we find that even when probes achieve high accuracy in predicting the success of jailbreaks, their performance often fails to generalize to unseen attack methods. This reveals that different jailbreaking strategies exploit different non-linear, non-universal features. Next, we demonstrate that non-linear probes provide a powerful tool for steering model behavior. Specifically, we use these probes to guide targeted latent space perturbations, enabling us to effectively modulate the model’s robustness against jailbreaks. Overall, our findings challenge the assumption that jailbreaks can be fully understood through linear or simple universal prompt features alone, highlighting the importance of a nuanced understanding of the mechanisms behind LLM vulnerabilities.
arxiv情報
著者 | Nathalie Kirch,Constantin Weisser,Severin Field,Helen Yannakoudakis,Stephen Casper |
発行日 | 2025-05-14 12:32:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google