Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment

要約

大規模な言語モデルを人間の好みに合わせて最近の進歩は、ベスト・ア・ナス蒸留(債券)の重要性の高まりを裏付けています。
ただし、サンプルと計算の非効率性のため、反復結合アルゴリズムは実際には非常に高価です。
このペーパーでは、一見異なるアルゴリズムパラダイムを統一する統一された絆と自己プレイの整合性との間の統一されたゲーム理論的なつながりを明らかにすることにより、問題に対処します。
接続に基づいて、パラメーター空間の反復結合に近い正規化された勝利優位性最適化のための一連の効率的なアルゴリズムを使用して、新しいフレームワーク、勝利率の優位性(Wind)を確立します。
四角損失の目的を持つ風のバリアントの1つに対して、証明可能なサンプル効率保証を提供します。
実験結果は、アルゴリズムが計算を加速するだけでなく、既存の方法と比較して優れたサンプル効率を達成することを確認しています。

要約(オリジナル)

Recent advances in aligning large language models with human preferences have corroborated the growing importance of best-of-N distillation (BOND). However, the iterative BOND algorithm is prohibitively expensive in practice due to the sample and computation inefficiency. This paper addresses the problem by revealing a unified game-theoretic connection between iterative BOND and self-play alignment, which unifies seemingly disparate algorithmic paradigms. Based on the connection, we establish a novel framework, WIN rate Dominance (WIND), with a series of efficient algorithms for regularized win rate dominance optimization that approximates iterative BOND in the parameter space. We provides provable sample efficiency guarantee for one of the WIND variant with the square loss objective. The experimental results confirm that our algorithm not only accelerates the computation, but also achieves superior sample efficiency compared to existing methods.

arxiv情報

著者 Tong Yang,Jincheng Mei,Hanjun Dai,Zixin Wen,Shicong Cen,Dale Schuurmans,Yuejie Chi,Bo Dai
発行日 2025-02-19 16:26:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク