TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback

要約

ヒューマン フィードバックからの強化学習 (RLHF) は、人間の嗜好データを活用して、人間の本質により密接に一致するように言語モデルをトレーニングします。
ただし、これらの人間の嗜好データはシーケンス レベルでラベル付けされており、シーケンス レベルの嗜好ラベルと言語モデルから自己回帰的に生成されるトークンの間に不一致が生じます。
最近のいくつかのアプローチでは、個々のトークンにトークンレベルの(つまり、高密度の)報酬を提供しようとしていますが、これらは通常、事前定義された離散的な報酬値(例:正:+1、負:-1、中立:0)に依存しており、
各トークンに固有のさまざまな程度の優先度が考慮されます。
この制限に対処するために、RLHF に TLCR (トークンレベルの連続報酬) を導入します。これには、正のトークンと負のトークンを区別するように訓練された弁別器が組み込まれており、弁別器の信頼度を使用して、コンテキストを考慮して各トークンに連続報酬を割り当てます。
広範な実験により、私たちが提案したTLCRは、オープンエンド生成ベンチマークにおける以前のシーケンスレベルまたはトークンレベルの離散報酬と比較して、一貫したパフォーマンスの向上につながることが示されています。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) leverages human preference data to train language models to align more closely with human essence. These human preference data, however, are labeled at the sequence level, creating a mismatch between sequence-level preference labels and tokens, which are autoregressively generated from the language model. Although several recent approaches have tried to provide token-level (i.e., dense) rewards for each individual token, these typically rely on predefined discrete reward values (e.g., positive: +1, negative: -1, neutral: 0), failing to account for varying degrees of preference inherent to each token. To address this limitation, we introduce TLCR (Token-Level Continuous Reward) for RLHF, which incorporates a discriminator trained to distinguish positive and negative tokens, and the confidence of the discriminator is used to assign continuous rewards to each token considering the context. Extensive experiments show that our proposed TLCR leads to consistent performance improvements over previous sequence-level or token-level discrete rewards on open-ended generation benchmarks.

arxiv情報

著者 Eunseop Yoon,Hee Suk Yoon,SooHwan Eom,Gunsoo Han,Daniel Wontae Nam,Daejin Jo,Kyoung-Woon On,Mark A. Hasegawa-Johnson,Sungwoong Kim,Chang D. Yoo
発行日 2024-07-23 15:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク