要約
直接選好最適化(DPO)は、大規模な言語モデルを人間の好みの整合に効果的に証明していますが、多くの場合、ペアワイズ比較に制約されます。
クエリごとに複数の応答を組み込み、平均的な報酬から最も逸脱しているものを優先する同時の加重選好最適化(SWEPO)を提案します。
この逸脱ベースの重み付けには、組み込みのカリキュラムに似た最も有益な外れ値にトレーニングが焦点を当てています。
理論的には、このようなマルチプレファレンスサンプリングがアライメントバイアスを下げ、予想される$ \ mathcal {o}(\ tfrac {1} {\ sqrt {k}})$のレートでの真の許容応答分布からの予想偏差を制限することを証明します。
。
経験的に、SWEPOはウルトラフィードバックデータセットの最先端のベースラインを上回り、DPOおよびInfoncaよりも大幅な改善を示し、アルパカエバルの長さ制御された勝率で最大$ \ SIM 4 $%の増加をもたらします。
要約(オリジナル)
Direct Preference Optimization (DPO) has proven effective in aligning large language models with human preferences but is often constrained to pairwise comparisons — overlooking additional positive and negative responses that are commonly available in real-world settings. We propose Simultaneous Weighted Preference Optimization (SWEPO), which incorporates multiple responses per query and prioritizes those that deviate most from the average reward. This deviation-based weighting focuses training on the most informative outliers, akin to a built-in curriculum. Theoretically, we prove that such multi-preference sampling lowers alignment bias, bounding the expected deviation from the true acceptable-response distribution at a rate of $\mathcal{O}(\tfrac{1}{\sqrt{k}})$. Empirically, SWEPO outperforms state-of-the-art baselines on the Ultra-Feedback dataset and demonstrates substantial improvements over DPO and InfoNCA, yielding boosts of up to $\sim 4$% on length-controlled win-rate on AlpacaEval.
arxiv情報
著者 | Taneesh Gupta,Rahul Madhavan,Xuchao Zhang,Chetan Bansal,Saravan Rajmohan |
発行日 | 2025-02-21 18:12:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google