要約
人間の嗜好データからの学習は、大規模言語モデル (LLM) を微調整するための主要なパラダイムとして浮上しています。
最も一般的な 2 つの手法ファミリー、つまり近接ポリシー最適化 (PPO) などのオンライン強化学習 (RL) と、直接優先最適化 (DPO) などのオフライン対照的手法 — は、両方とも同等であるという事実により、以前の研究では同等のものとして位置づけられていました。
同じオフライン設定データセットから開始する必要があります。
プリファレンス微調整のためのオンライン手法とオフライン手法の類似点と相違点についての理論的理解をさらに広げるために、データセット カバレッジというレンズを通じて厳密な分析を実施します。データセット カバレッジとは、トレーニング データがテスト分布をどのようにカバーし、広く使用されているかを捉える概念です。
RLで。
オフラインの対比法が最適なポリシーに収束するためには、全体的なカバレッジ条件が必要かつ十分であるが、オンラインの RL 法にはより弱い部分的なカバレッジ条件で十分であることを証明します。
この分離は、特にオフラインの嗜好データが十分に多様でない場合に、オンライン RL 手法がオフライン手法よりも優れたパフォーマンスを発揮できる理由の 1 つの説明を提供します。
最後に、これまでの理論的観察に基づいて、オフライン データを対比ベースの選好最適化に使用し、オンライン データを KL 正則化に使用するハイブリッド選好最適化 (HyPO) アルゴリズムを導き出します。
理論的および経験的に、HyPO は純粋なオフラインの対応する DPO よりもパフォーマンスが高く、同時に計算効率とメモリ効率を維持できることを実証しています。
要約(オリジナル)
Learning from human preference data has emerged as the dominant paradigm for fine-tuning large language models (LLMs). The two most common families of techniques — online reinforcement learning (RL) such as Proximal Policy Optimization (PPO) and offline contrastive methods such as Direct Preference Optimization (DPO) — were positioned as equivalent in prior work due to the fact that both have to start from the same offline preference dataset. To further expand our theoretical understanding of the similarities and differences between online and offline techniques for preference fine-tuning, we conduct a rigorous analysis through the lens of dataset coverage, a concept that captures how the training data covers the test distribution and is widely used in RL. We prove that a global coverage condition is both necessary and sufficient for offline contrastive methods to converge to the optimal policy, but a weaker partial coverage condition suffices for online RL methods. This separation provides one explanation of why online RL methods can perform better than offline methods, especially when the offline preference data is not diverse enough. Finally, motivated by our preceding theoretical observations, we derive a hybrid preference optimization (HyPO) algorithm that uses offline data for contrastive-based preference optimization and online data for KL regularization. Theoretically and empirically, we demonstrate that HyPO is more performant than its pure offline counterpart DPO, while still preserving its computation and memory efficiency.
arxiv情報
著者 | Yuda Song,Gokul Swamy,Aarti Singh,J. Andrew Bagnell,Wen Sun |
発行日 | 2024-07-16 16:51:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google