Learn Your Reference Model for Real Good Alignment

要約

アライメント問題の複雑さは、既存の方法が不安定であるという事実に起因しています。
研究者はこの欠点に対処するためにさまざまなトリックを発明し続けています。
たとえば、言語モデル アライメントの基本的なヒューマン フィードバックからの強化学習 (RLHF) 手法では、報酬の最大化に加えて、トレーニング可能なポリシーと SFT ポリシーの間のカルバック ライブラーの乖離が最小限に抑えられます。
この追加により、モデルが報酬モデル (RM) に過剰適合され、RM のドメイン外のテキストが生成されることが防止されます。
Direct Preference Optimization (DPO) 手法は、RLHF の最適化タスクを再定式化し、報酬モデルを削除しますが、ポリシーが SFT ポリシーに近いという要件を暗黙のうちに維持します。
私たちの論文では、DPO 手法におけるこの暗黙の制限が次善の結果につながると主張します。
我々は、トレーニング中に参照ポリシーを更新する Trust Regional DPO (TR-DPO) と呼ばれる新しい方法を提案します。
このような単純な更新により、Anthropic HH および TLDR データセット上の DPO に対する TR-DPO の有効性を実証します。
GPT-4 による自動評価で測定したところ、TR-DPO は DPO よりも最大 19% 優れていることがわかりました。
私たちが提案する新しい調整アプローチにより、一貫性、正確性、詳細レベル、有用性、無害性などの複数のパラメータにわたってモデルの品質を一度に向上させることができます。

要約(オリジナル)

The complexity of the alignment problem stems from the fact that existing methods are unstable. Researchers continuously invent various tricks to address this shortcoming. For instance, in the fundamental Reinforcement Learning From Human Feedback (RLHF) technique of Language Model alignment, in addition to reward maximization, the Kullback-Leibler divergence between the trainable policy and the SFT policy is minimized. This addition prevents the model from being overfitted to the Reward Model (RM) and generating texts that are out-of-domain for the RM. The Direct Preference Optimization (DPO) method reformulates the optimization task of RLHF and eliminates the Reward Model while tacitly maintaining the requirement for the policy to be close to the SFT policy. In our paper, we argue that this implicit limitation in the DPO method leads to sub-optimal results. We propose a new method called Trust Region DPO (TR-DPO), which updates the reference policy during training. With such a straightforward update, we demonstrate the effectiveness of TR-DPO against DPO on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by up to 19%, measured by automatic evaluation with GPT-4. The new alignment approach that we propose allows us to improve the quality of models across several parameters at once, such as coherence, correctness, level of detail, helpfulness, and harmlessness.

arxiv情報

著者 Alexey Gorbatovski,Boris Shaposhnikov,Alexey Malakhov,Nikita Surnachev,Yaroslav Aksenov,Ian Maksimov,Nikita Balagansky,Daniil Gavrilov
発行日 2024-04-15 10:44:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク