要約
直接選好最適化(DPO)を支えるなど、AIアライメントの人間のフィードバックのモデルは、多くの場合、順応性を制限し、特異な静的な設定セットで焼きます。
このペーパーでは、明示的で人間の解釈可能な指示に基づいて動作を動的に調整する能力を備えた言語モデルを与えるための新しいフレームワークである構成可能な優先チューニング(CPT)を導入することにより、モノリシックな好みの仮定に挑戦します。
CPTは、執筆スタイルのような望ましい属性を定義する構造化された細粒のルーブリックから派生したシステムプロンプトに条件付けられた合成的に生成された優先順位データを活用します。
これらのルーブリック誘導の好みを微調整することにより、LLMは、再訓練なしで、システムプロンプトに応答して、推論時に出力を変調することを学びます。
このアプローチは、きめ細かい制御を提供するだけでなく、より微妙でコンテキスト依存的な人間のフィードバックをモデル化するメカニズムも提供します。
トレーニングコード、生成されたデータセット、微調整されたモデルなどのいくつかの実験的アーティファクトは、https://github.com/vicgalle/configurable-preference-tuningでリリースされています
要約(オリジナル)
Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning
arxiv情報
著者 | Víctor Gallego |
発行日 | 2025-06-13 12:17:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google