T-REG: Preference Optimization with Token-Level Reward Regularization

要約

人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の価値観に合わせる上で極めて重要である。伝統的に、RLHFはクエリに対する応答を生成し、報酬モデルを使用して応答全体に報酬を割り当てる。しかし、このアプローチは、単一の疎な報酬に依存しているため、最終的な報酬に最も大きく貢献するシーケンスの部分をモデルが識別することが困難であるという課題に直面している。最近の手法では、トークンレベルの報酬を導入することで、この限界に対処しようとしている。しかし、これらの手法は訓練されたクレジット割り当てモデルかAIアノテーターに依存することが多く、報酬の品質と信頼性に懸念が生じる。本稿では、嗜好最適化のためにシーケンスレベルとトークンレベルの報酬を活用する新しいアプローチであるトークンレベル報酬正規化(T-REG)を提案する。LLMの自己洗練能力を利用する本手法では、LLMがトークン・レベルの報酬を自己生成できるように、対比的プロンプトを使用する。これらの自己生成された報酬は、報酬の正則化として機能し、トークン間でシーケンスレベルの報酬をより効果的に分配するようにモデルを導く。これにより、より優れたトークン・レベルのクレジット割り当てが容易になり、アライメント性能が向上する。Alpaca Eval 2やArena-Hardなどのインストラクションに続くベンチマークで実験を行った結果、我々の手法はベースライン手法をそれぞれ最大3.8%、4.4%も常に上回ることが示された。コードとモデルはhttps://github.com/wzhouad/T-REG。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has been crucial in aligning large language models (LLMs) with human values. Traditionally, RLHF involves generating responses to a query and using a reward model to assign a reward to the entire response. However, this approach faces challenges due to its reliance on a single, sparse reward, which makes it challenging for the model to identify which parts of the sequence contribute most significantly to the final reward. Recent methods have attempted to address this limitation by introducing token-level rewards. However, these methods often rely on either a trained credit assignment model or AI annotators, raising concerns about the quality and reliability of the rewards. In this paper, we propose token-level reward regularization (T-REG), a novel approach that leverages both sequence-level and token-level rewards for preference optimization. Harnessing the self-refinement capabilities of LLMs, our method uses contrastive prompting to enable LLMs to self-generate token-level rewards. These self-generated rewards then act as reward regularization, guiding the model to more effectively distribute sequence-level rewards across tokens. This facilitates better token-level credit assignment and enhances alignment performance. Experiments on the instruction following benchmarks, including Alpaca Eval 2 and Arena-Hard, show that our method consistently outperforms baseline methods by up to 3.8% and 4.4%, respectively. We will release the code and models at https://github.com/wzhouad/T-REG.

arxiv情報

著者 Wenxuan Zhou,Shujian Zhang,Lingxiao Zhao,Tao Meng
発行日 2024-12-03 18:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク