要約
生成モデルの推論時間アライメントのためのシンプルで効果的な方法は、最高の$ n $ポリシーです。ここでは、$ n $サンプルはリファレンスポリシーから描画され、報酬機能に基づいてランク付けされ、最高ランキングは
選択。
文献で一般的に使用されている分析式は、Best-of $ n $ポリシーと参照ポリシーの間のKLの発散が$ \ log(n) – (n-1)/n.$に等しいと主張しています。
この主張の中で、それが実際のKL発散の上限であることを示しています。
また、さまざまなレジームでのこの上限の緊密さを調査し、KLの発散の新しい推定量を提案し、それが緊密な近似を提供することを経験的に示します。
また、参照ポリシーに対するベスト$ $ n $ポリシーの勝利率が$ n/(n+1)$によって上限に縛られており、この特性評価の緊密性に関する境界線を導き出すことも示しています。
私たちは、勝利率とBest-of $ n $ alignmentポリシーのKL発散のトレードオフを分析することで結論付けています。
要約(オリジナル)
A simple and effective method for the inference-time alignment of generative models is the best-of-$n$ policy, where $n$ samples are drawn from a reference policy, ranked based on a reward function, and the highest ranking one is selected. A commonly used analytical expression in the literature claims that the KL divergence between the best-of-$n$ policy and the reference policy is equal to $\log (n) – (n-1)/n.$ We disprove the validity of this claim, and show that it is an upper bound on the actual KL divergence. We also explore the tightness of this upper bound in different regimes, and propose a new estimator for the KL divergence and empirically show that it provides a tight approximation. We also show that the win rate of the best-of-$n$ policy against the reference policy is upper bounded by $n/(n+1)$ and derive bounds on the tightness of this characterization. We conclude with analyzing the tradeoffs between win rate and KL divergence of the best-of-$n$ alignment policy, which demonstrate that very good tradeoffs are achievable with $n < 1000$.
arxiv情報
著者 | Ahmad Beirami,Alekh Agarwal,Jonathan Berant,Alexander D’Amour,Jacob Eisenstein,Chirag Nagpal,Ananda Theertha Suresh |
発行日 | 2025-01-31 15:10:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google