GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

要約

大規模言語モデル (LLM) は優れた機能を発揮しますが、人間の好みに注意深く合わせる必要があります。
従来のトレーニング時間の方法では、人間の好みのデータセットを使用して LLM を微調整しますが、多大なトレーニング コストがかかり、多様なユーザーの好みに対応するにはトレーニングを繰り返す必要があります。
テスト時の調整方法では、報酬モデル (RM) を使用してフリーズした LLM を再トレーニングせずにガイドすることでこの問題に対処します。
ただし、既存のテスト時のアプローチは、完全な応答を評価するように設計された軌跡レベルの RM に依存しているため、部分応答から次のトークンの報酬を計算する必要がある自己回帰テキスト生成には適していません。
これに対処するために、自己回帰報酬モデルを活用したテスト時調整アプローチである GenARM を導入します。これは、効率的かつ効果的な自己回帰生成のための次のトークン報酬を予測するように設計された新しい報酬パラメータ化です。
理論的には、このパラメータ化により、KL 正則化強化学習フレームワーク内で従来の RM によって達成可能な任意の分布にフリーズ LLM を誘導できることが証明できることを示します。
実験結果は、GenARM が以前のテスト時調整ベースラインを大幅に上回り、トレーニング時メソッドのパフォーマンスに匹敵することを示しています。
さらに、GenARM は、大規模なモデルのトレーニングにかかる​​高いコストを発生させることなく、効率的な弱から強へのガイダンスを可能にし、大規模な LLM と小規模な RM を調整します。
さらに、GenARM は多目的アライメントをサポートしており、好みの次元間のリアルタイムのトレードオフを可能にし、再トレーニングすることなく多様なユーザーの好みに対応します。

要約(オリジナル)

Large Language Models (LLMs) exhibit impressive capabilities but require careful alignment with human preferences. Traditional training-time methods finetune LLMs using human preference datasets but incur significant training costs and require repeated training to handle diverse user preferences. Test-time alignment methods address this by using reward models (RMs) to guide frozen LLMs without retraining. However, existing test-time approaches rely on trajectory-level RMs which are designed to evaluate complete responses, making them unsuitable for autoregressive text generation that requires computing next-token rewards from partial responses. To address this, we introduce GenARM, a test-time alignment approach that leverages the Autoregressive Reward Model–a novel reward parametrization designed to predict next-token rewards for efficient and effective autoregressive generation. Theoretically, we demonstrate that this parametrization can provably guide frozen LLMs toward any distribution achievable by traditional RMs within the KL-regularized reinforcement learning framework. Experimental results show that GenARM significantly outperforms prior test-time alignment baselines and matches the performance of training-time methods. Additionally, GenARM enables efficient weak-to-strong guidance, aligning larger LLMs with smaller RMs without the high costs of training larger models. Furthermore, GenARM supports multi-objective alignment, allowing real-time trade-offs between preference dimensions and catering to diverse user preferences without retraining.

arxiv情報

著者 Yuancheng Xu,Udari Madhushani Sehwag,Alec Koppel,Sicheng Zhu,Bang An,Furong Huang,Sumitra Ganesh
発行日 2024-10-10 17:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク