Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

要約

私たちは、基礎モデルを人間の好みに合わせて多目的に調整するという問題を検討します。これは、有益で無害な AI システムに向けた重要なステップです。
ただし、強化学習 (RL) を使用して大規模な基礎モデルを微調整するのは一般にコストが高く不安定であり、多次元性、異質性、および人間の好みの矛盾する性質により、調整プロセスがさらに複雑になります。
このペーパーでは、プロンプト コンテキスト内の複数の報酬に基づいて基礎モデルの応答を条件付けし、調整のために教師あり微調整を適用する Rewards-in-Context (RiC) を紹介します。
RiC の顕著な特徴は、単一の基礎モデルの教師付き微調整のみを必要とし、推論時間中のユーザーの好みに合わせた動的な調整をサポートするため、シンプルさと適応性です。
抽象化された凸型最適化問題の分析的解法からインスピレーションを得た、当社の動的推論時間調整手法は、複数の目的に対するパレート最適解に近づきます。
経験的証拠は、多目的 RL ベースラインと比較してわずか約 $10\%$ GPU 時間で多様な報酬に対応するために大規模言語モデル (LLM) と拡散モデルの両方を調整する際の私たちの方法の有効性を示しています。

要約(オリジナル)

We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful and harmless AI systems. However, it is generally costly and unstable to fine-tune large foundation models using reinforcement learning (RL), and the multi-dimensionality, heterogeneity, and conflicting nature of human preferences further complicate the alignment process. In this paper, we introduce Rewards-in-Context (RiC), which conditions the response of a foundation model on multiple rewards in its prompt context and applies supervised fine-tuning for alignment. The salient features of RiC are simplicity and adaptivity, as it only requires supervised fine-tuning of a single foundation model and supports dynamic adjustment for user preferences during inference time. Inspired by the analytical solution of an abstracted convex optimization problem, our dynamic inference-time adjustment method approaches the Pareto-optimal solution for multiple objectives. Empirical evidence demonstrates the efficacy of our method in aligning both Large Language Models (LLMs) and diffusion models to accommodate diverse rewards with only around $10\%$ GPU hours compared with multi-objective RL baseline.

arxiv情報

著者 Rui Yang,Xiaoman Pan,Feng Luo,Shuang Qiu,Han Zhong,Dong Yu,Jianshu Chen
発行日 2024-02-15 18:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク