Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models

要約

会話型大規模言語モデルは、有害な質問への回答を拒否するように訓練されています。
ただし、新たなジェイルブレイク技術は依然として安全でない出力を引き出す可能性があり、モデルの調整において継続的な課題を提示しています。
さまざまなジェイルブレイク タイプがどのようにセーフガードを回避するかをより深く理解するために、このペーパーではさまざまなジェイルブレイク入力でのモデルのアクティブ化を分析します。
他のクラスからの脱獄の効果を軽減するように機能する脱獄の単一クラスから脱獄ベクターを抽出できることがわかりました。
これは、さまざまな種類の効果的なジェイルブレイクが同様の内部メカニズムを介して動作していることを示している可能性があります。
私たちは、有害性特徴抑制の潜在的な共通メカニズムを調査し、有害性ベクトル成分を調べることによってその存在の証拠を提供します。
これらの発見は、より堅牢なジェイルブレイク対策を開発するための実用的な洞察を提供し、言語モデルにおけるジェイルブレイクのダイナミクスをより深く機構的に理解するための基礎を築きます。

要約(オリジナル)

Conversational Large Language Models are trained to refuse to answer harmful questions. However, emergent jailbreaking techniques can still elicit unsafe outputs, presenting an ongoing challenge for model alignment. To better understand how different jailbreak types circumvent safeguards, this paper analyses model activations on different jailbreak inputs. We find that it is possible to extract a jailbreak vector from a single class of jailbreaks that works to mitigate jailbreak effectiveness from other classes. This may indicate that different kinds of effective jailbreaks operate via similar internal mechanisms. We investigate a potential common mechanism of harmfulness feature suppression, and provide evidence for its existence by looking at the harmfulness vector component. These findings offer actionable insights for developing more robust jailbreak countermeasures and lay the groundwork for a deeper, mechanistic understanding of jailbreak dynamics in language models.

arxiv情報

著者 Sarah Ball,Frauke Kreuter,Nina Rimsky
発行日 2024-06-13 16:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク