要約
報酬ベースの微調整は、言語ポリシーを意図された行動 (創造性や安全性など) に合わせるために非常に重要です。
ここでの重要な課題は、複数の (矛盾する) 目的を柔軟かつ効率的な方法でトレードオフする、操作可能な言語モデルを開発することです。
このペーパーでは、複数の目的に基づいて言語モデルを微調整するための一般的なフレームワークである条件付き言語ポリシー (CLP) について説明します。
CLP は、マルチタスク トレーニングとパラメーター効率の高い微調整から得た技術に基づいて、推論時に矛盾する目標を効果的にトレードオフする操作可能なモデルを学習できます。
特に、これには、目的間のさまざまなトレードオフを達成するために複数のモデルをトレーニングしたり維持したりする必要がありません。
広範な実験とアブレーションを通じて、CLP フレームワークが、多目的微調整のための現在の最先端のアプローチを上回り、パレート支配的な操作可能なモデルを学習することを示します。
要約(オリジナル)
Reward-based finetuning is crucial for aligning language policies with intended behaviors (e.g., creativity and safety). A key challenge here is to develop steerable language models that trade-off multiple (conflicting) objectives in a flexible and efficient manner. This paper presents Conditioned Language Policy (CLP), a general framework for finetuning language models on multiple objectives. Building on techniques from multi-task training and parameter-efficient finetuning, CLP can learn steerable models that effectively trade-off conflicting objectives at inference time. Notably, this does not require training or maintaining multiple models to achieve different trade-offs between the objectives. Through an extensive set of experiments and ablations, we show that the CLP framework learns steerable models that outperform and Pareto-dominate the current state-of-the-art approaches for multi-objective finetuning.
arxiv情報
著者 | Kaiwen Wang,Rahul Kidambi,Ryan Sullivan,Alekh Agarwal,Christoph Dann,Andrea Michi,Marco Gelmi,Yunxuan Li,Raghav Gupta,Avinava Dubey,Alexandre Ramé,Johan Ferret,Geoffrey Cideron,Le Hou,Hongkun Yu,Amr Ahmed,Aranyak Mehta,Léonard Hussenot,Olivier Bachem,Edouard Leurent |
発行日 | 2024-07-22 16:13:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google