要約
クエリごとに動的に選択された複数の肯定応答と否定応答に対応するように設計された直接優先最適化 (DPO) の新しい拡張である同時加重優先最適化 (SWEPO) を導入します。
SWEPO は、加重グループ対比損失を採用し、平均報酬スコアからの偏差に基づいて応答に重みを割り当てます。
このアプローチでは、平均よりも大幅に優れている、または劣っている応答に効果的に優先順位を付け、最適化を強化します。
私たちの理論的分析は、複数の優先順位を同時に考慮することでアライメントのバイアスが減少し、より堅牢なアライメントが得られることを示しています。
さらに、損失関数と関連関数 InfoNCA のトレーニング ダイナミクスに関する洞察も提供します。
UltraFeedback データセットの実証的検証により、SWEPO は AlpacaEval データセットを使用したダウンストリーム評価で優れたパフォーマンスを発揮する最先端のものとして確立されています。
要約(オリジナル)
We introduce Simultaneous Weighted Preference Optimization (SWEPO), a novel extension of Direct Preference Optimization (DPO) designed to accommodate multiple dynamically chosen positive and negative responses for each query. SWEPO employs a weighted group contrastive loss, assigning weights to responses based on their deviation from the mean reward score. This approach effectively prioritizes responses that are significantly better or worse than the average, enhancing optimization. Our theoretical analysis demonstrates that simultaneously considering multiple preferences reduces alignment bias, resulting in more robust alignment. Additionally, we provide insights into the training dynamics of our loss function and a related function, InfoNCA. Empirical validation on the UltraFeedback dataset establishes SWEPO as state-of-the-art, with superior performance in downstream evaluations using the AlpacaEval dataset.
arxiv情報
著者 | Taneesh Gupta,Rahul Madhavan,Xuchao Zhang,Chetan Bansal,Saravan Rajmohan |
発行日 | 2025-01-08 15:00:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google