要約
報酬ベースの微調整は、言語ポリシーを意図された行動 (創造性や安全性など) に合わせるために非常に重要です。
主な課題は、複数の (矛盾する) 目的を柔軟かつ効率的な方法でトレードオフする、操作可能な言語モデルを開発することです。
このペーパーでは、複数の目的に基づいて言語モデルを微調整するための一般的なフレームワークである条件付き言語ポリシー (CLP) について説明します。
CLP は、マルチタスク トレーニングとパラメーター効率の高い微調整によるテクニックに基づいて、推論時に矛盾する目標を効果的にトレードオフする操作可能なモデルを学習します。
特に、これには、目的間のさまざまなトレードオフを達成するために複数のモデルをトレーニングしたり維持したりする必要がありません。
2 つの要約データセットに対する広範な実験とアブレーションを通じて、CLP が多目的微調整のための既存のアプローチを上回り、パレート支配的な操作可能な言語モデルを学習することを示します。
要約(オリジナル)
Reward-based finetuning is crucial for aligning language policies with intended behaviors (e.g., creativity and safety). A key challenge is to develop steerable language models that trade-off multiple (conflicting) objectives in a flexible and efficient manner. This paper presents Conditional Language Policy (CLP), a general framework for finetuning language models on multiple objectives. Building on techniques from multi-task training and parameter-efficient finetuning, CLP learn steerable models that effectively trade-off conflicting objectives at inference time. Notably, this does not require training or maintaining multiple models to achieve different trade-offs between the objectives. Through extensive experiments and ablations on two summarization datasets, we show that CLP learns steerable language models that outperform and Pareto-dominate the existing approaches for multi-objective finetuning.
arxiv情報
著者 | Kaiwen Wang,Rahul Kidambi,Ryan Sullivan,Alekh Agarwal,Christoph Dann,Andrea Michi,Marco Gelmi,Yunxuan Li,Raghav Gupta,Avinava Dubey,Alexandre Ramé,Johan Ferret,Geoffrey Cideron,Le Hou,Hongkun Yu,Amr Ahmed,Aranyak Mehta,Léonard Hussenot,Olivier Bachem,Edouard Leurent |
発行日 | 2024-10-23 17:42:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google