Minor DPO reject penalty to increase training robustness

要約

人間の好みからの学習は、事前トレーニングされた LLM を下流タスクの人間の好みに合わせて調整するために、大規模言語モデル (LLM) の微調整ステップで使用されるパラダイムです。
これまでは、ヒューマン フィードバックからの強化学習 (RLHF) アルゴリズムを使用して、これらの設定に合わせて元のモデルから大きくかけ離れないよう LLM ポリシーを最適化していました。
最近、簡素化された RL フリーの方法でアライメント問題を解決する Direct Preference Optimization (DPO) が提案されました。
DPO は、選択されたデータと拒否データの優先ペアを使用して、相対対数確率を暗黙的な報酬関数としてモデル化し、単純なバイナリ クロス エントロピー目標を直接使用して LLM ポリシーを最適化します。
DPO は非常に単純で理解しやすいです。
ほとんどの場合、効率的かつ適切に機能します。
この記事では、DPO の $\beta$ の動作メカニズムを分析し、RL アルゴリズムと DPO の構文の違いを明らかにし、DPO の簡略化によってもたらされる潜在的な不足を理解します。
これらの洞察をもとに、元の RL アルゴリズムとよりよく連携し、好みの最適化プロセスの安定性を高める、MinorDPO を提案します。

要約(オリジナル)

Learning from human preference is a paradigm used in large-scale language model (LLM) fine-tuning step to better align pretrained LLM to human preference for downstream task. In the past it uses reinforcement learning from human feedback (RLHF) algorithm to optimize the LLM policy to align with these preferences and not to draft too far from the original model. Recently, Direct Preference Optimization (DPO) has been proposed to solve the alignment problem with a simplified RL-free method. Using preference pairs of chosen and reject data, DPO models the relative log probability as implicit reward function and optimize LLM policy using a simple binary cross entropy objective directly. DPO is quite straight forward and easy to be understood. It perform efficiently and well in most cases. In this article, we analyze the working mechanism of $\beta$ in DPO, disclose its syntax difference between RL algorithm and DPO, and understand the potential shortage brought by the DPO simplification. With these insights, we propose MinorDPO, which is better aligned to the original RL algorithm, and increase the stability of preference optimization process.

arxiv情報

著者 Shiming Xie,Hong Chen,Fred Yu,Zeye Sun,Xiuyu Wu,Yingfan Hu
発行日 2024-08-30 13:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク