Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

要約

大規模言語モデル (LLM) の安全性調整の現在のパラダイムは、万能のアプローチに従っています。つまり、モデルは、モデルプロバイダーによって安全でないとみなされたコンテンツとの対話を拒否します。
このアプローチは、文化や地域ごとに異なる社会規範に直面する柔軟性に欠けています。
さらに、ユーザーは多様な安全ニーズを持っている可能性があるため、静的安全基準を備えたモデルは制限が厳しすぎて役に立たず、再調整するにはコストがかかりすぎます。
私たちは、再トレーニングせずにモデルを多様な安全要件に適応させるように設計されたフレームワークである、Controllable Safety Alignment (CoSA) を提案します。
固定モデルを調整する代わりに、システム プロンプトの一部として提供される安全設定 (望ましい安全動作に関する自由形式の自然言語記述) に従うようにモデルを調整します。
モデルの安全性動作を調整するには、承認されたユーザーは推論時にそのような安全性構成を変更するだけで済みます。
これを可能にするために、多様な安全構成に簡単に適応できるように LLM を調整するためのデータ中心の方法である CoSAlign を提案します。
さらに、有用性と設定された安全性の両方を考慮した新しい制御性評価プロトコルを考案し、それらを CoSA スコアに要約し、多様な安全性要件と対応する評価プロンプトを備えた現実世界の LLM ユースケースで構成される人間が作成したベンチマークである CoSApien を構築します。

CoSAlign が、コンテキスト内アライメントを含む強力なベースラインに対する制御性の大幅な向上につながることを示します。
私たちのフレームワークは、LLM における多元的な人間の価値観のより適切な表現と適応を奨励し、それによって LLM の実用性を高めます。

要約(オリジナル)

The current paradigm for safety alignment of large language models (LLMs) follows a one-size-fits-all approach: the model refuses to interact with any content deemed unsafe by the model provider. This approach lacks flexibility in the face of varying social norms across cultures and regions. In addition, users may have diverse safety needs, making a model with static safety standards too restrictive to be useful, as well as too costly to be re-aligned. We propose Controllable Safety Alignment (CoSA), a framework designed to adapt models to diverse safety requirements without re-training. Instead of aligning a fixed model, we align models to follow safety configs — free-form natural language descriptions of the desired safety behaviors — that are provided as part of the system prompt. To adjust model safety behavior, authorized users only need to modify such safety configs at inference time. To enable that, we propose CoSAlign, a data-centric method for aligning LLMs to easily adapt to diverse safety configs. Furthermore, we devise a novel controllability evaluation protocol that considers both helpfulness and configured safety, summarizing them into CoSA-Score, and construct CoSApien, a human-authored benchmark that consists of real-world LLM use cases with diverse safety requirements and corresponding evaluation prompts. We show that CoSAlign leads to substantial gains of controllability over strong baselines including in-context alignment. Our framework encourages better representation and adaptation to pluralistic human values in LLMs, and thereby increasing their practicality.

arxiv情報

著者 Jingyu Zhang,Ahmed Elgohary,Ahmed Magooda,Daniel Khashabi,Benjamin Van Durme
発行日 2024-10-11 16:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク