要約
アライメントの問題の複雑さは、既存の方法が不安定であると考えられているという事実に起因しています。
ヒューマン フィードバックからの強化学習 (RLHF) は、トレーニングされたポリシーと初期の教師付き微調整ポリシー (SFT) の間の KL の相違を最小限に抑え、報酬モデル (RM) のドメイン外サンプルの生成を回避することで、この問題に対処します。
最近、オンラインからオフラインの最適化に移行し、RLHF の目標を再定式化し、報酬モデル (DPO、IPO、KTO) を削除する多くの方法が登場しました。
報酬モデルとそれがもたらす課題を排除したにもかかわらず、これらのアルゴリズムは、トレーニングされたポリシーが SFT ポリシーに近いという点で依然として制約を受けています。
私たちの論文では、オフライン最適化手法におけるこの暗黙の制限が次善の結果をもたらすと主張します。
この問題に対処するために、トレーニング中に参照ポリシーを更新する、信頼領域 (TR-DPO、TR-IPO、TR-KTO) と呼ばれる新しいメソッドのクラスを提案します。
この単純な更新アプローチにより、Anthropic-HH および Reddit TL;DR データセットでの従来の言語モデル アラインメントに対する新しいパラダイムの有効性を実証します。
最も注目すべき点は、Reddit TL;DR タスクで事前トレーニング済みの Pythia 6.9B モデルを使用して TR メソッドとベースラインを並べて自動的に比較した場合、勝率の差は DPO で 8.4%、IPO で 14.3%、KTO で 15% に達しています。
最後に、一貫性、正確さ、有用性、無害性などの基準に基づいてモデル応答の評価を評価することにより、提案された手法が既存の手法よりも大幅に優れていることを示します。
要約(オリジナル)
The complexity of the alignment problem stems from the fact that existing methods are considered unstable. Reinforcement Learning from Human Feedback (RLHF) addresses this issue by minimizing the KL divergence between the trained policy and the initial supervised fine-tuned policy (SFT) to avoid generating out-of-domain samples for the reward model (RM). Recently, many methods have emerged that shift from online to offline optimization, reformulating the RLHF objective and removing the reward model (DPO, IPO, KTO). Despite eliminating the reward model and the challenges it posed, these algorithms are still constrained in terms of closeness of the trained policy to the SFT one. In our paper, we argue that this implicit limitation in the offline optimization methods leads to suboptimal results. To address this issue, we propose a class of new methods called Trust Region (TR-DPO, TR-IPO, TR-KTO), which update the reference policy during training. With this straightforward update approach, we demonstrate the effectiveness of the new paradigm of language model alignment against the classical one on the Anthropic-HH and Reddit TL;DR datasets. Most notably, when automatically comparing TR methods and baselines side by side using pretrained Pythia 6.9B models on the Reddit TL;DR task, the difference in win rates reaches 8.4% for DPO, 14.3% for IPO, and 15% for KTO. Finally, by assessing model response ratings grounded on criteria such as coherence, correctness, helpfulness, and harmlessness, we demonstrate that our proposed methods significantly outperform existing techniques.
arxiv情報
著者 | Alexey Gorbatovski,Boris Shaposhnikov,Alexey Malakhov,Nikita Surnachev,Yaroslav Aksenov,Ian Maksimov,Nikita Balagansky,Daniil Gavrilov |
発行日 | 2024-05-21 15:04:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google