Representation Bending for Large Language Model Safety

要約

大規模な言語モデル(LLM)は強力なツールとして浮上していますが、有害なコンテンツ生成からより広範な社会的危害に至るまでの固有の安全リスクは、大きな課題をもたらします。
これらのリスクは、最近の敵対的な攻撃、微調整の脆弱性、およびハイステークス環境でのLLMの展開の増加によって増幅される可能性があります。
人間のフィードバックや敵対的なトレーニングで微調整するなどの既存の安全性向上技術は、特定の脅威に対処し、目に見えない攻撃間で一般化することができない、または手動システムレベルの防御を必要とすることが多いため、依然として脆弱です。
このペーパーでは、LLMの有害行動の根底にある表現を根本的に混乱させる新しいアプローチであるRepbendを紹介し、(潜在的に固有の)安全性を高めるためのスケーラブルなソリューションを提供します。
repbendは、活性化ステアリングのアイデアをもたらします – 推論中のステアリングモデルの動作のための単純なベクター算術 – 損失ベースの微調整にもたらされます。
Repbendは、広範な評価を通じて、最先端のパフォーマンスを達成し、回路ブレーカー、RMU、NPOなどの以前の方法を上回り、多様なジェイルブレイクベンチマーク全体で攻撃成功率を最大95%削減し、すべてモデルの使いやすさと一般的な機能を軽減します。

要約(オリジナル)

Large Language Models (LLMs) have emerged as powerful tools, but their inherent safety risks – ranging from harmful content generation to broader societal harms – pose significant challenges. These risks can be amplified by the recent adversarial attacks, fine-tuning vulnerabilities, and the increasing deployment of LLMs in high-stakes environments. Existing safety-enhancing techniques, such as fine-tuning with human feedback or adversarial training, are still vulnerable as they address specific threats and often fail to generalize across unseen attacks, or require manual system-level defenses. This paper introduces RepBend, a novel approach that fundamentally disrupts the representations underlying harmful behaviors in LLMs, offering a scalable solution to enhance (potentially inherent) safety. RepBend brings the idea of activation steering – simple vector arithmetic for steering model’s behavior during inference – to loss-based fine-tuning. Through extensive evaluation, RepBend achieves state-of-the-art performance, outperforming prior methods such as Circuit Breaker, RMU, and NPO, with up to 95% reduction in attack success rates across diverse jailbreak benchmarks, all with negligible reduction in model usability and general capabilities.

arxiv情報

著者 Ashkan Yousefpour,Taeheon Kim,Ryan S. Kwon,Seungbeen Lee,Wonje Jeung,Seungju Han,Alvin Wan,Harrison Ngan,Youngjae Yu,Jonghyun Choi
発行日 2025-04-02 09:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク