要約
大規模な言語モデル(LLMS)は、人間のフィードバック(RLHF)からのいわゆる強化学習を通じて、人間の好みに合わせて調整することで改善できます。
ただし、LLMを微調整するコストは、多くのユーザーにとって法外なものです。
LLMの微調整をバイパスする能力により、最近提案されている予測時間トケンワイズ報酬ガイド付きテキスト生成(RGTG)メソッドが提案されています。
彼らは、完全なシーケンスでトレーニングされた報酬モデルを使用して、デコード中に部分的なシーケンスを獲得し、高い報酬を持つシーケンスに向かって発電を導くために除去します。
ただし、これらの方法はこれまでのところ、ヒューリスティックな動機付けであり、分析が不十分でした。
この作業では、完全なシーケンスでトレーニングされた報酬モデルが、スコアリングの部分シーケンスと互換性がないことを示します。
この問題を軽減するために、部分的なシーケンスで明示的にブラッドリー・テリー報酬モデルを訓練し、デコード時に暗黙のトークンワイズポリシーから自動網目上サンプルすることを提案します。
この報酬モデルのプロパティと結果のポリシーを研究します。このポリシーは、2つの異なるRLHFポリシーの比率に比例していることを示します。
私たちのシンプルなアプローチは、以前のRGTGメソッドを上回り、大規模なLLM Finetuningなしで強力なオフラインベースラインと同様に実行します。
要約(オリジナル)
Large language models (LLMs) can be improved by aligning with human preferences through fine-tuning — the so-called reinforcement learning from human feedback (RLHF). However, the cost of fine-tuning an LLM is prohibitive for many users. Due to their ability to bypass LLM fine-tuning, prediction-time tokenwise reward-guided text generation (RGTG) methods have recently been proposed. They use a reward model trained on full sequences to score partial sequences during decoding in a bid to steer the generation towards sequences with high rewards. However, these methods have so far been only heuristically motivated and poorly analyzed. In this work, we show that reward models trained on full sequences are not compatible with scoring partial sequences. To alleviate this issue, we propose to train a Bradley-Terry reward model on partial sequences explicitly, and autoregressively sample from the implied tokenwise policy during decoding time. We study the properties of this reward model and the resulting policy: we show that this policy is proportional to the ratio of two distinct RLHF policies. Our simple approach outperforms previous RGTG methods and performs similarly to strong offline baselines without large-scale LLM finetuning.
arxiv情報
著者 | Ahmad Rashid,Ruotian Wu,Julia Grosse,Agustinus Kristiadi,Pascal Poupart |
発行日 | 2025-02-14 15:46:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google