Why Safeguarded Ships Run Aground? Aligned Large Language Models’ Safety Mechanisms Tend to Be Anchored in The Template Region

要約

大規模な言語モデル(LLMS)の安全性の配置は脆弱なままです。なぜなら、その初期の動作は比較的単純な攻撃によっても簡単に投獄される可能性があるためです。
入力命令と初期モデル出力の間に固定テンプレートを埋めることは、既存のLLMの一般的な慣行であるため、このテンプレートは脆弱性の背後にある重要な要素であると仮定します。LLMSの安全関連の意思決定は、集計情報からの集計情報に依存しています。
これらのモデルの安全行動に大きく影響するテンプレート領域。
この問題は、テンプレートアンカーの安全アライメントと呼びます。
このホワイトペーパーでは、広範な実験を実施し、テンプレートアンカーの安全アライメントがさまざまな整列LLMに広がっていることを確認します。
私たちの機械的分析は、推論時の脱獄攻撃に遭遇したときのモデルの感受性にそれがどのようにつながるかを示しています。
さらに、テンプレート領域からの安全性メカニズムの分離が、脱獄攻撃に対する脆弱性を緩和することに有望であることを示しています。
将来の研究では、テンプレート領域への依存を減らす、より堅牢な安全アライメント技術を開発することを奨励しています。

要約(オリジナル)

The safety alignment of large language models (LLMs) remains vulnerable, as their initial behavior can be easily jailbroken by even relatively simple attacks. Since infilling a fixed template between the input instruction and initial model output is a common practice for existing LLMs, we hypothesize that this template is a key factor behind their vulnerabilities: LLMs’ safety-related decision-making overly relies on the aggregated information from the template region, which largely influences these models’ safety behavior. We refer to this issue as template-anchored safety alignment. In this paper, we conduct extensive experiments and verify that template-anchored safety alignment is widespread across various aligned LLMs. Our mechanistic analyses demonstrate how it leads to models’ susceptibility when encountering inference-time jailbreak attacks. Furthermore, we show that detaching safety mechanisms from the template region is promising in mitigating vulnerabilities to jailbreak attacks. We encourage future research to develop more robust safety alignment techniques that reduce reliance on the template region.

arxiv情報

著者 Chak Tou Leong,Qingyu Yin,Jian Wang,Wenjie Li
発行日 2025-02-19 18:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク