要約
推論時間最適化スケール計算には、効果的なパフォーマンスのための意図的な推論ステップを導き出します。
以前の検索ベースの戦略は、自動回帰世代の近視に対処していますが、広大な検索スペースは、過度の探査と不十分な搾取につながります。
最適なステップを導き出すために効率的なバランスをとるために、デコード戦略を先見の明のサンプリングとしてフレーム化し、シミュレートされた将来のステップを活用して、グローバルに最適なステップ推定を取得します。
それに基づいて、$ \ phi $ decodingという名前の新しいデコード戦略を提案します。
ステップ値の正確かつ表現力のある推定を提供するために、$ \ phi $ decodingは、先見性とクラスタリングを介して2つの分布近似です。
共同分布からサンプリングすると、利用のために最適なステップを選択できます。
適応的な計算割り当てをサポートするために、推論効率を実現するための軽量ソリューションを特徴とする幅および詳細な剪定戦略を提案します。
7つのベンチマークにわたる広範な実験では、$ \ phi $ decodingがパフォーマンスと効率の両方で強力なベースラインを上回ることが示されています。
追加の分析では、さまざまなLLMにわたる一般化と、幅広いコンピューティング予算にわたるスケーラビリティが示されています。
このコードはhttps://github.com/xufangzhi/phi-decodingでリリースされ、オープンソースPypiパッケージが近日公開されます。
要約(オリジナル)
Inference-time optimization scales computation to derive deliberate reasoning steps for effective performance. While previous search-based strategies address the short-sightedness of auto-regressive generation, the vast search space leads to excessive exploration and insufficient exploitation. To strike an efficient balance to derive the optimal step, we frame the decoding strategy as foresight sampling, leveraging simulated future steps to obtain globally optimal step estimation. Built on it, we propose a novel decoding strategy, named $\phi$-Decoding. To provide a precise and expressive estimation of step value, $\phi$-Decoding approximates two distributions via foresight and clustering. Sampling from the joint distribution, the optimal steps can be selected for exploitation. To support adaptive computation allocation, we propose in-width and in-depth pruning strategies, featuring a light-weight solution to achieve inference efficiency. Extensive experiments across seven benchmarks show $\phi$-Decoding outperforms strong baselines in both performance and efficiency. Additional analysis demonstrates its generalization across various LLMs and scalability across a wide range of computing budgets. The code will be released at https://github.com/xufangzhi/phi-Decoding, and the open-source PyPI package is coming soon.
arxiv情報
著者 | Fangzhi Xu,Hang Yan,Chang Ma,Haiteng Zhao,Jun Liu,Qika Lin,Zhiyong Wu |
発行日 | 2025-03-17 15:38:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google