Controlled Decoding from Language Models

要約

KL 正則化強化学習 (RL) は、高い報酬結果に向けて言語モデルの応答を制御するための一般的な調整フレームワークです。
我々は、この RL 目的に対して、制御デコード (CD) と呼ばれるモジュール式ソルバーを提案します。これは、別個のプレフィックス スコアラー モジュールを通じて制御を行います。
トレーニング時に、プレフィックス スコアラーは報酬の値関数を学習し、それを推論時に使用して、凍結された基本モデルからの生成を制御し、おそらくソリューションから RL 目標までサンプリングします。
CD が一般的なベンチマークの制御メカニズムとして効果的であることを経験的に示します。
また、単一のプレフィックススコアラーが複数の報酬を学習でき、推論時にさまざまな報酬の組み合わせを構成できるため、追加のトレーニングなしで多目的 RL 問題を効果的に解決できることも示します。
追加のチューニングを行わずに、未確認のベース モデルに CD 転送を適用する利点を示します。
最後に、CD が推論時にブロック単位のデコード方式で適用可能であり、基本的に一般的な best-of-$n$ 戦略と強化学習によるトークン レベルの制御の間のギャップを埋めることができることを示します。
このため、CD は言語モデルを調整するための有望なアプローチになります。

要約(オリジナル)

KL-regularized reinforcement learning (RL) is a popular alignment framework to control the language model responses towards high reward outcomes. We propose a modular solver for this RL objective, called controlled decoding (CD), which exerts control through a separate prefix scorer module. At training time, the prefix scorer learns a value function for the reward, and it is used at inference time to control the generation from a frozen base model, provably sampling from a solution to the RL objective. We empirically demonstrate that CD is effective as a control mechanism on popular benchmarks. We also show that a single prefix scorer can learn multiple rewards and different reward combinations can be configurable at inference time, effectively solving a multi-objective RL problem with no additional training. We show that the benefits of applying CD transfer to an unseen base model with no further tuning. Finally, we show that CD can be applied in a blockwise decoding fashion at inference-time, essentially bridging the gap between the popular best-of-$n$ strategy and token-level control through reinforcement learning. This makes CD a promising approach for alignment of language models.

arxiv情報

著者 Sidharth Mudgal,Jong Lee,Harish Ganapathy,YaGuang Li,Tao Wang,Yanping Huang,Zhifeng Chen,Heng-Tze Cheng,Michael Collins,Trevor Strohman,Jilin Chen,Alex Beutel,Ahmad Beirami
発行日 2024-02-13 18:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク