要約
REFA は、きめ細かい長さの制御を強制しながら、複数のユーザー設定を最適化するリファレンスフリーのアライメント手法ファミリーです。
私たちのアプローチは、高品質の応答をより強く強調するための偏差ベースの重み付け、つまらない短い応答解を防ぐための長さの正規化、およびデータセットによって引き起こされる簡潔さのバイアスを軽減するための EOS 確率正則化を統合します。
理論的には、シーケンス長アサーションによる不確実性の低減 (URSLA) の下では、単純な長さの正規化が依然として長さベースのショートカットを奨励できることを示します。
対照的に、REFA はこれらの微妙なインセンティブを修正し、真により有益で高品質な出力にモデルを導きます。
経験的に、REFA はリファレンスフリーのアライメント手法の中で最先端の新しい手法を確立し、人間の好みにより近い、より豊かな応答を生成します。
8.4% の長さ制御勝率 (LC-WR) と 6.2% 勝率 (WR) を達成するベース教師あり微調整 (SFT) の mistral-7b モデルと比較して、当社の最良の REFA 構成は 21.62% LC-WR と 19.87% を達成します。
AlpacaEval v2 ベンチマークでの % WR。
これは、最も強力な複数優先ベースラインである InfoNCA (16.82% LC-WR、10.44% WR) と最も強力なリファレンスフリー ベースラインである SimPO (20.01% LC-WR、17.65% WR) の両方を上回る大幅な改善を示しています。
要約(オリジナル)
We introduce REFA, a family of reference-free alignment methods that optimize over multiple user preferences while enforcing fine-grained length control. Our approach integrates deviation-based weighting to emphasize high-quality responses more strongly, length normalization to prevent trivial short-response solutions, and an EOS-probability regularizer to mitigate dataset-induced brevity biases. Theoretically, we show that under the Uncertainty Reduction with Sequence Length Assertion (URSLA), naive length normalization can still incentivize length-based shortcuts. By contrast, REFA corrects these subtle incentives, guiding models toward genuinely more informative and higher-quality outputs. Empirically, REFA sets a new state-of-the-art among reference-free alignment methods, producing richer responses aligned more closely with human preferences. Compared to a base supervised fine-tuned (SFT) mistral-7b model that achieves 8.4% length-controlled win rate (LC-WR) and 6.2% win rate (WR), our best REFA configuration attains 21.62% LC-WR and 19.87% WR on the AlpacaEval v2 benchmark. This represents a substantial improvement over both the strongest multi-preference baseline, InfoNCA (16.82% LC-WR, 10.44% WR), and the strongest reference-free baseline, SimPO (20.01% LC-WR, 17.65% WR)
arxiv情報
著者 | Taneesh Gupta,Rahul Madhavan,Xuchao Zhang,Chetan Bansal,Saravan Rajmohan |
発行日 | 2025-01-09 15:20:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google