Theoretical guarantees on the best-of-n alignment policy


生成モデルの整列のための簡単で効果的な方法は、best-of-$n$ 方針である。$n$ 個のサンプルが基本方針から引き出され、報酬関数に基づいてランク付けされ、最も高いランクのものが選択される。文献でよく使われる解析式は、best-of-$n$政策と基本政策の間のKLダイバージェンスは$log (n) – (n-1)/nに等しいと主張する$。この主張の妥当性を反証し、実際のKLダイバージェンスの上限であることを示す。また、異なる領域におけるこの上限値の厳密性を調べる。最後に、KLダイバージェンスの新しい推定量を提案し、いくつかの例を通して、それが厳密な近似を提供することを経験的に示す。


A simple and effective method for the alignment of generative models is the best-of-$n$ policy, where $n$ samples are drawn from a base policy, and ranked based on a reward function, and the highest ranking one is selected. A commonly used analytical expression in the literature claims that the KL divergence between the best-of-$n$ policy and the base policy is equal to $\log (n) – (n-1)/n.$ We disprove the validity of this claim, and show that it is an upper bound on the actual KL divergence. We also explore the tightness of this upper bound in different regimes. Finally, we propose a new estimator for the KL divergence and empirically show that it provides a tight approximation through a few examples.


著者 Ahmad Beirami,Alekh Agarwal,Jonathan Berant,Alexander D’Amour,Jacob Eisenstein,Chirag Nagpal,Ananda Theertha Suresh
発行日 2024-01-03 18:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT パーマリンク