要約
人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) の動作を人間の好みに合わせるために一般的に使用されています。
最近人気の代替手段は、LLM ベースの報酬モデルをポリシー自体で置き換える直接ポリシー最適化 (DPO) です。これにより、報酬モデルを学習するための追加のメモリとトレーニング時間の必要性がなくなります。
ただし、DPO は肯定的な応答と否定的な応答の相対的な性質を考慮しないため、最適とはいえないトレーニング結果が生じる可能性があります。
この問題を軽減するために、オンザフライ微調整 LLM 内の固有の知識の使用を調査して、相対的な品質を取得し、損失関数の改良に役立てます。
具体的には、LLM の知識を活用して、肯定的応答と否定的応答の両方の品質を推定するための改良関数を設計します。
構築された改良関数が、穏やかな仮定の下で損失関数の自己改良に役立つことを示します。
改良機能は、DPO とそのバリエーションである Identity Policy Optimization (IPO) に統合されています。
さまざまな評価者による実験では、DPO や IPO よりも微調整されたモデルのパフォーマンスを向上できることが示されています。
要約(オリジナル)
Reinforcement Learning from Human Feedback (RLHF) has been commonly used to align the behaviors of Large Language Models (LLMs) with human preferences. Recently, a popular alternative is Direct Policy Optimization (DPO), which replaces an LLM-based reward model with the policy itself, thus obviating the need for extra memory and training time to learn the reward model. However, DPO does not consider the relative qualities of the positive and negative responses, and can lead to sub-optimal training outcomes. To alleviate this problem, we investigate the use of intrinsic knowledge within the on-the-fly fine-tuning LLM to obtain relative qualities and help to refine the loss function. Specifically, we leverage the knowledge of the LLM to design a refinement function to estimate the quality of both the positive and negative responses. We show that the constructed refinement function can help self-refine the loss function under mild assumptions. The refinement function is integrated into DPO and its variant Identity Policy Optimization (IPO). Experiments across various evaluators indicate that they can improve the performance of the fine-tuned models over DPO and IPO.
arxiv情報
著者 | Runsheng Yu,Yong Wang,Xiaoqi Jiao,Youzhi Zhang,James T. Kwok |
発行日 | 2024-05-31 17:31:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google