要約
大規模言語モデル (LLM) を人間の判断とより適切に調整するために、ヒューマン フィードバックからの強化学習 (RLHF) は報酬モデルを学習し、正規化された RL を使用してそれを最適化します。
最近、代理報酬関数を計算せずに、このような微調整されたモデルを嗜好データセットから直接学習する直接アライメント手法が導入されました。
これらの方法は、トレーニングされたモデルに従った (好ましくない) 完了の対数尤度を含む対照的な損失に基づいて構築されています。
ただし、補完にはさまざまな長さがあり、対数尤度は長さによって不変ではありません。
一方、バッチは通常トークンごとに平均化されるため、教師ありトレーニングで使用されるクロスエントロピー損失は長さによって不変です。
これらのアプローチを調和させるために、直接アライメントの長さを不変にするための原則的なアプローチを紹介します。
正式には、根本的な RL 問題に最適なポリシーを与える最適性演算子と組み合わせて、新しい平均演算子を導入します。
これは、損失内の対数尤度を平均することになります。
私たちは、世代の長さとそのスコアの間のトレードオフを観察しながら、このような平均化の効果を経験的に研究しています。
要約(オリジナル)
To better align Large Language Models (LLMs) with human judgment, Reinforcement Learning from Human Feedback (RLHF) learns a reward model and then optimizes it using regularized RL. Recently, direct alignment methods were introduced to learn such a fine-tuned model directly from a preference dataset without computing a proxy reward function. These methods are built upon contrastive losses involving the log-likelihood of (dis)preferred completions according to the trained model. However, completions have various lengths, and the log-likelihood is not length-invariant. On the other side, the cross-entropy loss used in supervised training is length-invariant, as batches are typically averaged token-wise. To reconcile these approaches, we introduce a principled approach for making direct alignment length-invariant. Formally, we introduce a new averaging operator, to be composed with the optimality operator giving the best policy for the underlying RL problem. It translates into averaging the log-likelihood within the loss. We empirically study the effect of such averaging, observing a trade-off between the length of generations and their scores.
arxiv情報
著者 | Nathan Grinsztajn,Yannis Flet-Berliac,Mohammad Gheshlaghi Azar,Florian Strub,Bill Wu,Eugene Choi,Chris Cremer,Arash Ahmadian,Yash Chandak,Olivier Pietquin,Matthieu Geist |
発行日 | 2024-06-27 14:07:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google