要約
大規模言語モデル (LLM) を人間の好みに合わせることが最近非常に注目を集めており、その 2 つの例として、標準的ではあるがコストのかかる RLHF-PPO とシンプルで直接的な Direct Preference Optimization (DPO) があります。
DPO はその効率性にもかかわらず、最先端の製品レベルの LLM ではほとんど使用されておらず、潜在的な病状を示唆しています。
この研究では、DPO の経験的有効性の包括的な検討と RLHF-PPO との系統的な比較により DPO を再検討します。
私たちは、DPO の学習結果の \textbf{3D} 特性、つまり応答が拒否される可能性の \textbf{D} の急激な低下、LLM 未学習への \textbf{D} の低下、および \textbf{D} の分散効果を特定します。
注意深く設計された玩具モデルと、数学的問題解決や指示に従うことなどのタスクに関する実用的な LLM の両方を用いた実験を通じて、目に見えない反応について研究します。
これらの発見は本質的に、関連研究によってなされたいくつかの観察と結びついており、我々はさらにそれらのもっともらしい理論的説明に貢献します。
したがって、\textbf{3D} プロパティによって引き起こされる問題を軽減し、トレーニングの安定性と DPO の最終パフォーマンスを向上させる簡単な正則化方法を提案します。
私たちの貢献には、ペアになった嗜好データの分布が DPO の有効性にどのような影響を与えるかについての調査も含まれています。
この研究が、報酬のない選好学習方法と報酬ベースの学習方法の間のギャップを縮めるための研究の方向性を提供できることを願っています。
要約(オリジナル)
Aligning large language models (LLMs) with human preference has recently gained tremendous attention, with the canonical yet costly RLHF-PPO and the simple and straightforward Direct Preference Optimization (DPO) as two examples. Despite the efficiency, DPO has rarely be used in the state-of-the-art production-level LLMs, implying its potential pathologies. In this work, we revisit DPO with a comprehensive examination of its empirical efficacy and a systematic comparison with RLHF-PPO. We identify the \textbf{3D}-properties of DPO’s learning outcomes: the \textbf{D}rastic drop in the likelihood of rejected responses, the \textbf{D}egradation into LLM unlearning, and the \textbf{D}ispersion effect on unseen responses through experiments with both a carefully designed toy model and practical LLMs on tasks including mathematical problem-solving and instruction following. These findings inherently connect to some observations made by related works and we additionally contribute a plausible theoretical explanation for them. Accordingly, we propose easy regularization methods to mitigate the issues caused by \textbf{3D}-properties, improving the training stability and final performance of DPO. Our contributions also include an investigation into how the distribution of the paired preference data impacts the effectiveness of DPO. We hope this work could offer research directions to narrow the gap between reward-free preference learning methods and reward-based ones.
arxiv情報
著者 | Yuzi Yan,Yibo Miao,Jialian Li,Yipin Zhang,Jian Xie,Zhijie Deng,Dong Yan |
発行日 | 2024-06-11 14:59:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google