Learn Your Reference Model for Real Good Alignment

要約

大規模言語モデル (LLM) の調整のためのオフライン メソッドは直接報酬モデルを必要としないという事実にもかかわらず、依然として過剰最適化の影響を受けやすいです。
この問題は、トレーニングされたモデルが参照ポリシーから過度に逸脱し、サンプル品質の低下につながる場合に発生します。
私たちは、トレーニング プロセス全体を通じて参照ポリシーを動的に更新する、トラスト リージョン (バリアント TR-DPO、TR-IPO、TR-KTO を含む) と呼ばれる、オフライン アライメント手法の新しいパラダイムを提案します。
私たちの結果は、TR アライメント手法が過剰最適化を効果的に軽減し、初期の参照ポリシーから大幅に逸脱した場合でもモデルが強力なパフォーマンスを維持できることを示しています。
これらのアプローチの有効性を、過剰最適化の低減を示すおもちゃの例だけでなく、役立つ対話や無害な対話、要約などの特定のタスクにおける直接的な並べて比較することによっても実証し、従来の手法を上回ります。
さらに、AlpacaEval 2 および Arena-Hard ベンチマークでの Llama3 モデルによる汎用アシスタント設定の大幅な改善を報告し、従来のアプローチに対する信頼領域メソッドの利点を強調しています。

要約(オリジナル)

Despite the fact that offline methods for Large Language Models (LLMs) alignment do not require a direct reward model, they remain susceptible to overoptimization. This issue arises when the trained model deviates excessively from the reference policy, leading to a decrease in sample quality. We propose a new paradigm of offline alignment methods, called Trust Region (including variants TR-DPO, TR-IPO, TR-KTO), which dynamically updates the reference policy throughout the training process. Our results show that TR alignment methods effectively mitigate overoptimization, enabling models to maintain strong performance even when substantially deviating from the initial reference policy. We demonstrate the efficacy of these approaches not only through toy examples that exhibit reduced overoptimization, but also through direct, side-by-side comparisons in specific tasks such as helpful and harmless dialogue, as well as summarization, where they surpass conventional methods. Additionally, we report significant improvements in general-purpose assistant setups with the Llama3 model on the AlpacaEval 2 and Arena-Hard benchmarks, highlighting the advantages of Trust Region methods over classical approaches.

arxiv情報

著者 Alexey Gorbatovski,Boris Shaposhnikov,Alexey Malakhov,Nikita Surnachev,Yaroslav Aksenov,Ian Maksimov,Nikita Balagansky,Daniil Gavrilov
発行日 2024-10-11 13:42:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク