Variational Best-of-N Alignment

要約

Best-of-n(bon)は、言語モデルを人間の好みに合わせるための一般的で効果的なアルゴリズムです。
アルゴリズムは次のように機能します。推論時に、nサンプルは言語モデルから描画され、報酬モデルで判断されるように、最高の報酬のあるサンプルは出力として返されます。
その有効性にもかかわらず、ボンは計算的に高価です。
これにより、サンプリングスループットがNの係数を減らします。推論時にボンをより効率的にするために、1つの戦略は言語モデルを微調整して、推論中にボンが行うことを模倣することです。
これを達成するために、ボンアルゴリズムによって誘導される分布を導き出します。
次に、言語モデルを微調整して、bon分布への後方KLの発散を最小限に抑えることを提案します。
私たちのアプローチは、平均フィールドの変分推論に類似しているため、それを変分骨(Vbon)と呼びます。
この微調整が成功し、良好な近似値になり、推論コストをNの係数で削減しました。制御された生成と要約タスクに関する実験は、BONが最も効果的なアライメント方法であり、BONの変分近似がBONおよびSURPASSモデルに最も近いパフォーマンスを達成し、標準的なKLCL-CLL-CLLの対象物を使用して微調整したことを示しています。
制御された生成タスクでは、Vbonは、他のアライメント方法と比較して、報酬とKL発散のパレートフロンティアにより頻繁に表示されます。
要約タスクでは、Vbonはさまざまなサンプリング温度で高い報酬値を達成します。

要約(オリジナル)

Best-of-N (BoN) is a popular and effective algorithm for aligning language models to human preferences. The algorithm works as follows: at inference time, N samples are drawn from the language model, and the sample with the highest reward, as judged by a reward model, is returned as the output. Despite its effectiveness, BoN is computationally expensive; it reduces sampling throughput by a factor of N. To make BoN more efficient at inference time, one strategy is to fine-tune the language model to mimic what BoN does during inference. To achieve this, we derive the distribution induced by the BoN algorithm. We then propose to fine-tune the language model to minimize backward KL divergence to the BoN distribution. Our approach is analogous to mean-field variational inference and, thus, we term it variational BoN (vBoN). To the extent this fine-tuning is successful and we end up with a good approximation, we have reduced the inference cost by a factor of N. Our experiments on controlled generation and summarization tasks show that BoN is the most effective alignment method, and our variational approximation to BoN achieves the closest performance to BoN and surpasses models fine-tuned using the standard KL-constrained RL objective. In the controlled generation task, vBoN appears more frequently on the Pareto frontier of reward and KL divergence compared to other alignment methods. In the summarization task, vBoN achieves high reward values across various sampling temperatures.

arxiv情報

著者 Afra Amini,Tim Vieira,Elliott Ash,Ryan Cotterell
発行日 2025-03-04 14:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク