Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment

要約

Direct Preference Optimization (DPO) などの従来の言語モデル調整手法は、事前に収集された静的なペアのプリファレンス データに依存するため制限があり、その適応性と実用性が妨げられています。
この制限を克服するために、既存のペア データを必要としない効果的でスケーラブルなトレーニング パラダイムである自己拡張設定最適化 (SAPO) を導入します。
否定的な応答を自律的に生成するセルフプレイのコンセプトに基づいて、オフポリシー学習パイプラインをさらに組み込み、データの探索と活用を強化します。
具体的には、指数移動平均 (EMA) モデルをリプレイ バッファーと組み合わせて採用し、応答セグメントの動的な更新を可能にし、リアルタイムのフィードバックと履歴データからの洞察を効果的に統合します。
Open LLM Leaderboard、IFEval、AlpacaEval 2.0、MT-Bench などのベンチマークにわたる LLaMA3-8B および Mistral-7B モデルの包括的な評価では、SAPO が DPO やオッズ比優先などの確立されたオフラインの対照的なベースラインと同等、またはそれを上回っていることが実証されています。
最適化されており、SPIN などのオフラインのセルフプレイ方法よりも優れたパフォーマンスを発揮します。
私たちのコードは https://github.com/yinyueqin/SAPO で入手できます。

要約(オリジナル)

Traditional language model alignment methods, such as Direct Preference Optimization (DPO), are limited by their dependence on static, pre-collected paired preference data, which hampers their adaptability and practical applicability. To overcome this limitation, we introduce Self-Augmented Preference Optimization (SAPO), an effective and scalable training paradigm that does not require existing paired data. Building on the self-play concept, which autonomously generates negative responses, we further incorporate an off-policy learning pipeline to enhance data exploration and exploitation. Specifically, we employ an Exponential Moving Average (EMA) model in conjunction with a replay buffer to enable dynamic updates of response segments, effectively integrating real-time feedback with insights from historical data. Our comprehensive evaluations of the LLaMA3-8B and Mistral-7B models across benchmarks, including the Open LLM Leaderboard, IFEval, AlpacaEval 2.0, and MT-Bench, demonstrate that SAPO matches or surpasses established offline contrastive baselines, such as DPO and Odds Ratio Preference Optimization, and outperforms offline self-play methods like SPIN. Our code is available at https://github.com/yinyueqin/SAPO

arxiv情報

著者 Yueqin Yin,Zhendong Wang,Yujia Xie,Weizhu Chen,Mingyuan Zhou
発行日 2024-05-31 14:21:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク