Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets

要約

大規模な言語モデル(LLMS)の最近の進歩は、特に下流の微調整を受けた場合、安全アライメントの脱獄に対する脆弱性を強調しています。
ただし、既存の緩和戦略は、主に安全ガードレールが侵害された後に脱獄事件に対処することに焦点を当てており、微調整中に有害な勾配を除去するか、微調整中の安全アライメントを継続的に強化します。
そのため、それらは重要な上流要因、つまり元の安全整列データの役割を見落とす傾向があります。
したがって、このペーパーでは、上流のアライメントデータセットと下流の微調整タスクの間の表現の類似性のレンズを介した安全ガードレールの分解を調査します。
私たちの実験は、これらのデータセット間の高い類似性が安全ガードレールを大幅に弱め、モデルを脱獄の影響を受けやすくすることを示しています。
逆に、これら2つのタイプのデータセット間の類似性が低いと、実質的に堅牢なモデルが生成されるため、有害スコアが最大10.33%減少します。
耐久性のある安全ガードレールの構築における上流のデータセット設計の重要性を強調し、脱獄攻撃に対する現実世界の脆弱性を減らすことにより、これらの調査結果は、微調整サービスプロバイダーに実用的な洞察を提供します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have underscored their vulnerability to safety alignment jailbreaks, particularly when subjected to downstream fine-tuning. However, existing mitigation strategies primarily focus on reactively addressing jailbreak incidents after safety guardrails have been compromised, removing harmful gradients during fine-tuning, or continuously reinforcing safety alignment throughout fine-tuning. As such, they tend to overlook a critical upstream factor: the role of the original safety-alignment data. This paper therefore investigates the degradation of safety guardrails through the lens of representation similarity between upstream alignment datasets and downstream fine-tuning tasks. Our experiments demonstrate that high similarity between these datasets significantly weakens safety guardrails, making models more susceptible to jailbreaks. Conversely, low similarity between these two types of datasets yields substantially more robust models and thus reduces harmfulness score by up to 10.33%. By highlighting the importance of upstream dataset design in the building of durable safety guardrails and reducing real-world vulnerability to jailbreak attacks, these findings offer actionable insights for fine-tuning service providers.

arxiv情報

著者 Lei Hsiung,Tianyu Pang,Yung-Chen Tang,Linyue Song,Tsung-Yi Ho,Pin-Yu Chen,Yaoqing Yang
発行日 2025-06-05 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク