要約
最近の自己報酬型大規模言語モデル (LLM) は、嗜好データに対する人による注釈を必要とせずに、LLM-as-a-Judge を適用して、調整パフォーマンスを反復的に向上させることに成功しました。
これらのメソッドは通常、同じ LLM を利用して、ポリシー モデル (応答を生成する) と報酬モデル (応答をスコア付けしてランク付けする) の両方として機能します。
ランク付けされた応答は、直接アライメント技術 (DPO など) を介して LLM をトレーニングするための優先ペアとして使用されます。
ただし、このプロセス全体を通じて、正確な報酬と高品質の嗜好データを確保するために重要な報酬とランキングの正確性が保証されていないことに注意してください。
比較的小さな LLM (例: 7B パラメーター) からの経験的結果は、特定の状況では自己報酬による改善が数回の反復後に減少する可能性があることも示しています。これは報酬システムに蓄積されたバイアスによるものであると私たちは仮説を立てています。
この偏りにより、LLM をトレーニングするための選好データの信頼性が低くなる可能性があります。
この問題に対処するために、最初に、自己報酬型言語モデルのための一般化された反復的な好みの微調整フレームワークを定式化して分析します。
次に、この一般化されたフレームワークに正則化を導入して、自己報酬プロセスにおける自信過剰な好みのラベル付けを軽減します。
この理論的洞察に基づいて、異なる反復にわたる報酬の一貫性を利用して自己報酬トレーニングを正規化し、モデルがより信頼性の高い嗜好データから学習できるようにする一貫性正則化自己報酬言語モデル (CREAM) を提案します。
この明示的な正則化により、報酬の一貫性とアライメントのパフォーマンスの両方を向上させる点で CREAM の優位性が実証された結果です。
コードは https://github.com/Raibows/CREAM で公開されています。
要約(オリジナル)
Recent self-rewarding large language models (LLM) have successfully applied LLM-as-a-Judge to iteratively improve the alignment performance without the need of human annotations for preference data. These methods commonly utilize the same LLM to act as both the policy model (which generates responses) and the reward model (which scores and ranks those responses). The ranked responses are then used as preference pairs to train the LLM via direct alignment technologies (e.g. DPO). However, it is noteworthy that throughout this process, there is no guarantee of accuracy in the rewarding and ranking, which is critical for ensuring accurate rewards and high-quality preference data. Empirical results from relatively small LLMs (e.g., 7B parameters) also indicate that improvements from self-rewarding may diminish after several iterations in certain situations, which we hypothesize is due to accumulated bias in the reward system. This bias can lead to unreliable preference data for training the LLM. To address this issue, we first formulate and analyze the generalized iterative preference fine-tuning framework for self-rewarding language model. We then introduce the regularization to this generalized framework to mitigate the overconfident preference labeling in the self-rewarding process. Based on this theoretical insight, we propose a Consistency Regularized sElf-rewarding lAnguage Model (CREAM) that leverages the rewarding consistency across different iterations to regularize the self-rewarding training, helping the model to learn from more reliable preference data. With this explicit regularization, our empirical results demonstrate the superiority of CREAM in improving both reward consistency and alignment performance. The code is publicly available at https://github.com/Raibows/CREAM.
arxiv情報
著者 | Zhaoyang Wang,Weilei He,Zhiyuan Liang,Xuchao Zhang,Chetan Bansal,Ying Wei,Weitong Zhang,Huaxiu Yao |
発行日 | 2024-10-16 16:51:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google