Value Augmented Sampling for Language Model Alignment and Personalization

要約

人間のさまざまな好みに対応し、新しいスキルを学習し、有害な行動を忘れるように大規模言語モデル (LLM) を調整することは重要な問題です。
Best-of-N 検索やモンテカルロ ツリー検索などの検索ベースの方法は高性能ですが、推論コストが高いため、LLM 適応には非現実的です。
一方、適応に強化学習 (RL) を使用すると、計算効率は高くなりますが、価値関数とポリシーの同時トレーニングにおける最適化の課題により、パフォーマンスは低下します。
報酬最適化のための新しいフレームワークである価値拡張サンプリング (VAS) を紹介します。これは、初期の凍結された LLM のみからサンプリングされたデータを使用して、さまざまな報酬関数を最大化できます。
VAS は、ポリシーと価値関数を共同トレーニングすることなく最適な報酬最大化ポリシーを解決し、最適化を安定させ、標準ベンチマークで PPO や DPO などの確立されたベースラインを上回り、Best-of-128 と同等の結果を達成します。
推論コストが低くなります。
LLM の重みを変更する必要がある既存の RL 手法とは異なり、VAS は事前トレーニングされた LLM の重みにアクセスする必要がありません。
したがって、API としてのみ利用可能な LLM (ChatGPT など) を適応させることもできます。
さらに、当社のアルゴリズムは、複数の報酬を構成し、導入時にそれぞれの報酬の範囲を制御する新しい機能を解放し、調整され、パーソナライズされた LLM の将来に向けた道を切り開きます。

要約(オリジナル)

Aligning Large Language Models (LLMs) to cater to different human preferences, learning new skills, and unlearning harmful behavior is an important problem. Search-based methods, such as Best-of-N or Monte-Carlo Tree Search, are performant, but impractical for LLM adaptation due to their high inference cost. On the other hand, using Reinforcement Learning (RL) for adaptation is computationally efficient, but performs worse due to the optimization challenges in co-training the value function and the policy. We present a new framework for reward optimization, Value Augmented Sampling (VAS), that can maximize different reward functions using data sampled from only the initial, frozen LLM. VAS solves for the optimal reward-maximizing policy without co-training the policy and the value function, making the optimization stable, outperforming established baselines, such as PPO and DPO, on standard benchmarks, and achieving comparable results to Best-of-128 with lower inference cost. Unlike existing RL methods that require changing the weights of the LLM, VAS does not require access to the weights of the pre-trained LLM. Thus, it can even adapt LLMs (e.g., ChatGPT), which are available only as APIs. In addition, our algorithm unlocks the new capability of composing several rewards and controlling the extent of each one during deployment time, paving the road ahead for the future of aligned, personalized LLMs.

arxiv情報

著者 Seungwook Han,Idan Shenfeld,Akash Srivastava,Yoon Kim,Pulkit Agrawal
発行日 2024-05-10 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク