Speculative Decoding for Multi-Sample Inference

要約

私たちは、自己整合やベスト・ア・サンプリングなどのマルチサンプルの推論シナリオに合わせた新しい投機的デコード方法を提案します。
私たちの方法は、並列生成パスの本質的なコンセンサスを活用して、補助モデルや外部データベースを必要とせずに高品質のドラフトトークンを合成します。
確率的集約メカニズムを介した平行な推論パス全体で構造パターンを動的に分析することにより、デコード分布に合わせたコンセンサストークンシーケンスを特定します。
数学的推論ベンチマークに関する評価は、ドラフトトークン構造のレイテンシを減らしながら、ベースライン上のドラフト受け入れ率の大幅な改善を示しています。
この作業は、効率的なマルチサンプルの推論のためのパラダイムシフトを確立し、サンプリングベースの推論技術と投機的デコードのシームレスな統合を可能にします。

要約(オリジナル)

We propose a novel speculative decoding method tailored for multi-sample reasoning scenarios, such as self-consistency and Best-of-N sampling. Our method exploits the intrinsic consensus of parallel generation paths to synthesize high-quality draft tokens without requiring auxiliary models or external databases. By dynamically analyzing structural patterns across parallel reasoning paths through a probabilistic aggregation mechanism, it identifies consensus token sequences that align with the decoding distribution. Evaluations on mathematical reasoning benchmarks demonstrate a substantial improvement in draft acceptance rates over baselines, while reducing the latency in draft token construction. This work establishes a paradigm shift for efficient multi-sample inference, enabling seamless integration of speculative decoding with sampling-based reasoning techniques.

arxiv情報

著者 Yiwei Li,Jiayi Shi,Shaoxiong Feng,Peiwen Yuan,Xinglin Wang,Yueqi Zhang,Ji Zhang,Chuyi Tan,Boyuan Pan,Yao Hu,Kan Li
発行日 2025-03-07 11:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク