要約
逐次的な依存関係は、特にリアルタイムアプリケーションにおいて、大規模な自己回帰モデルを展開する際の基本的なボトルネックとなる。枝刈りや量子化のような従来の最適化アプローチは、しばしばモデルの品質を損なうが、世代洗練フレームワークにおける最近の進歩は、このトレードオフを大幅に軽減できることを示している。 このサーベイでは、自己回帰シーケンスのタスクにわたる手法を分析し、世代絞り込みフレームワークの包括的な分類法を提示する。生成戦略(単純なn-gram予測から洗練されたドラフトモデルまで)と洗練メカニズム(シングルパス検証や反復アプローチを含む)に基づいて手法を分類する。アルゴリズムの革新とシステムレベルの実装の両方を系統的に分析することで、コンピューティング環境全体での展開戦略を検証し、テキスト、画像、音声生成にまたがるアプリケーションを探求する。理論的フレームワークと実用的な実装の両方を系統的に検証することで、効率的な自己回帰復号における今後の研究の基礎を提供する。
要約(オリジナル)
Sequential dependencies present a fundamental bottleneck in deploying large-scale autoregressive models, particularly for real-time applications. While traditional optimization approaches like pruning and quantization often compromise model quality, recent advances in generation-refinement frameworks demonstrate that this trade-off can be significantly mitigated. This survey presents a comprehensive taxonomy of generation-refinement frameworks, analyzing methods across autoregressive sequence tasks. We categorize methods based on their generation strategies (from simple n-gram prediction to sophisticated draft models) and refinement mechanisms (including single-pass verification and iterative approaches). Through systematic analysis of both algorithmic innovations and system-level implementations, we examine deployment strategies across computing environments and explore applications spanning text, images, and speech generation. This systematic examination of both theoretical frameworks and practical implementations provides a foundation for future research in efficient autoregressive decoding.
arxiv情報
著者 | Yunhai Hu,Zining Liu,Zhenyuan Dong,Tianfan Peng,Bradley McDanel,Sai Qian Zhang |
発行日 | 2025-03-03 12:21:14+00:00 |
arxivサイト | arxiv_id(pdf) |