要約
推論モデルの最近の進歩は、特に詳細かつ包括的な推論プロセスを採用することにより、特に数学的推論などの複雑なタスクの精度の大幅な改善を実証しています。
ただし、これらの長い推論シーケンスを生成することは、計算的に高価で時間がかかります。
この非効率性に対処するために、特定のタスクの固有の並列性を活用して、推論プロセスを加速します。
具体的には、複数の並列推論ブランチが存在する場合、特殊な注意マスクを使用してステップごとに複数のトークンをデコードし、単一のシーケンス内でそれらを処理します。
実験結果は、基本的に精度を維持しながら、デコード時間で100%以上のスピードアップを達成することを示しています。
要約(オリジナル)
Recent advances in reasoning models have demonstrated significant improvements in accuracy, particularly for complex tasks such as mathematical reasoning, by employing detailed and comprehensive reasoning processes. However, generating these lengthy reasoning sequences is computationally expensive and time-consuming. To address this inefficiency, we leverage the inherent parallelizability of certain tasks to accelerate the reasoning process. Specifically, when multiple parallel reasoning branches exist, we decode multiple tokens per step using a specialized attention mask, processing them within a single sequence. Experimental results show that our method achieves over 100% speedup in decoding time while basically maintaining accuracy.
arxiv情報
著者 | Yijiong Yu |
発行日 | 2025-03-26 13:28:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google