Guided Speculative Inference for Efficient Test-Time Alignment of LLMs

要約

ガイド付き投機推論(GSI)を提案します。これは、大規模な言語モデルでの効率的な報酬誘導デコードのための新しいアルゴリズムです。
GSIは、ソフトベストオブ – $ $ n $テスト時間スケーリングと報酬モデル$ r(x、y)$と小さな補助モデル$ \ pi_s(y \ mid x)$からの投機的サンプルを組み合わせています。
最適なチルトポリシー$ \ pi _ {\ beta、b}(y \ mid x)\ propto \ pi_b(y \ mid x)\ exp(\ beta \、y))$のプライマリモデル$ \ pi_b $。
誘導分布と最適なポリシーとの間のKLの発散に関する理論的バウンドを導き出します。
推論ベンチマーク(Math500、Olympiadbench、Minerva Math)の実験では、我々の方法は、$ \ Pi_s $および報酬ガイド付き投機的デコード(Liao et al。、2025)で標準のソフトベスト$ n $よりも高い精度を達成し、特定の設定では、$ $ n $を$ \ pi_bで均等にします。
このコードは、https://github.com/j-geuter/gsiで入手できます。

要約(オリジナル)

We propose Guided Speculative Inference (GSI), a novel algorithm for efficient reward-guided decoding in large language models. GSI combines soft best-of-$n$ test-time scaling with a reward model $r(x,y)$ and speculative samples from a small auxiliary model $\pi_S(y\mid x)$. We provably approximate the optimal tilted policy $\pi_{\beta,B}(y\mid x) \propto \pi_B(y\mid x)\exp(\beta\,r(x,y))$ of soft best-of-$n$ under the primary model $\pi_B$. We derive a theoretical bound on the KL divergence between our induced distribution and the optimal policy. In experiments on reasoning benchmarks (MATH500, OlympiadBench, Minerva Math), our method achieves higher accuracy than standard soft best-of-$n$ with $\pi_S$ and reward-guided speculative decoding (Liao et al., 2025), and in certain settings even outperforms soft best-of-$n$ with $\pi_B$. The code is available at https://github.com/j-geuter/GSI .

arxiv情報

著者 Jonathan Geuter,Youssef Mroueh,David Alvarez-Melis
発行日 2025-06-04 16:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.7, stat.ML パーマリンク