Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

要約

大規模言語モデル (LLM) は翻訳や質問応答などのアプリケーションに不可欠となるため、人間の価値観との安全な調整を確保することが重要です。
現在の調整方法は動的なユーザーの意図や複雑な目的に対応できず、モデルが有害なコンテンツを生成しやすくなっています。
私たちは、ベース モデル、教師あり微調整モデル (SFT)、編集モデルなど、さまざまなシナリオにわたって LLM の安全性を強化するトレーニング不要のフレームワークである Safety Arithmetic を提案します。
安全性の計算には、有害なコンテンツを回避するための危害方向の除去と、安全な対応を促進するための安全性の調整が含まれます。
さらに、意図せずに使用するとモデルの安全性を損なう可能性がある編集インスタンスを強調表示するデータセットである NoIntentEdit を紹介します。
私たちの実験では、Safety Arithmetic が安全対策を大幅に改善し、過剰安全を削減し、モデルの実用性を維持し、安全なコンテンツの生成を保証する点で既存の方法を上回るパフォーマンスを示すことが示されました。

要約(オリジナル)

Ensuring the safe alignment of large language models (LLMs) with human values is critical as they become integral to applications like translation and question answering. Current alignment methods struggle with dynamic user intentions and complex objectives, making models vulnerable to generating harmful content. We propose Safety Arithmetic, a training-free framework enhancing LLM safety across different scenarios: Base models, Supervised fine-tuned models (SFT), and Edited models. Safety Arithmetic involves Harm Direction Removal to avoid harmful content and Safety Alignment to promote safe responses. Additionally, we present NoIntentEdit, a dataset highlighting edit instances that could compromise model safety if used unintentionally. Our experiments show that Safety Arithmetic significantly improves safety measures, reduces over-safety, and maintains model utility, outperforming existing methods in ensuring safe content generation.

arxiv情報

著者 Rima Hazra,Sayan Layek,Somnath Banerjee,Soujanya Poria
発行日 2024-10-28 17:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク