Reward-Guided Speculative Decoding for Efficient LLM Reasoning

要約

大規模な言語モデル(LLMS)の推論の効率を改善することを目的とした新しいフレームワークである報酬誘導投機デコード(RSD)を紹介します。
RSDは、軽量のドラフトモデルとより強力なターゲットモデルを相乗的に組み合わせて、制御されたバイアスを組み込み、厳格な不偏を強制する既存の投機的デコード方法とは対照的に、高報酬の出力に優先順位を付けます。
RSDはプロセス報酬モデルを採用して、中間デコードステップを評価し、ターゲットモデルを呼び出すかどうかを動的に決定し、計算コストと出力品質のトレードオフを最適化します。
しきい値ベースの混合戦略が、リソース利用とパフォーマンスの間の最適なバランスを達成することを理論的に実証します。
Olympiadレベルのタスクを含む挑戦的な推論ベンチマークに関する広範な評価は、RSDがターゲットモデルのみ(最大4.4倍少ないフロップ)でのデコードに対して大幅な効率向上をもたらすことを示しています。
+3.5)。
これらの結果は、RSDがリソース集約型シナリオにLLMを展開するための堅牢で費用対効果の高いアプローチとして強調しています。

要約(オリジナル)

We introduce Reward-Guided Speculative Decoding (RSD), a novel framework aimed at improving the efficiency of inference in large language models (LLMs). RSD synergistically combines a lightweight draft model with a more powerful target model, incorporating a controlled bias to prioritize high-reward outputs, in contrast to existing speculative decoding methods that enforce strict unbiasedness. RSD employs a process reward model to evaluate intermediate decoding steps and dynamically decide whether to invoke the target model, optimizing the trade-off between computational cost and output quality. We theoretically demonstrate that a threshold-based mixture strategy achieves an optimal balance between resource utilization and performance. Extensive evaluations on challenging reasoning benchmarks, including Olympiad-level tasks, show that RSD delivers significant efficiency gains against decoding with the target model only (up to 4.4x fewer FLOPs), while achieving significant better accuracy than parallel decoding method on average (up to +3.5). These results highlight RSD as a robust and cost-effective approach for deploying LLMs in resource-intensive scenarios.

arxiv情報

著者 Baohao Liao,Yuhui Xu,Hanze Dong,Junnan Li,Christof Monz,Silvio Savarese,Doyen Sahoo,Caiming Xiong
発行日 2025-01-31 17:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク