Recurrent Drafter for Fast Speculative Decoding in Large Language Models

要約

この論文では、大規模な言語モデルを提供する効率を高めることを目的とした、投機的デコードの改良されたアプローチを紹介します。
私たちの手法は、古典的な 2 モデルの投機的復号化アプローチと、より最近の単一モデル アプローチである Medusa という 2 つの確立された技術の長所を利用しています。
Medusa からインスピレーションを得た私たちのアプローチは、投機的デコードに単一モデル戦略を採用しています。
ただし、私たちの方法は、反復依存設計を備えた単一の軽量のドラフト ヘッドを採用することで区別されます。これは本質的に古典的な投機的デコードで使用される小さなドラフト モデルに似ていますが、完全なトランス アーキテクチャの複雑さはありません。
また、反復的な依存関係があるため、ビーム検索を使用して、ドラフト ヘッドで望ましくない候補を迅速に除外できます。
その成果は、単一モデル設計のシンプルさを組み合わせ、Medusa での推論のためだけにデータ依存のツリー アテンション構造を作成する必要性を回避する方法です。
我々は、このアプローチの採用に伴うトレードオフの包括的な分析とともに、いくつかの一般的なオープンソース言語モデルに対する提案された方法の有効性を経験的に実証します。

要約(オリジナル)

In this paper, we introduce an improved approach of speculative decoding aimed at enhancing the efficiency of serving large language models. Our method capitalizes on the strengths of two established techniques: the classic two-model speculative decoding approach, and the more recent single-model approach, Medusa. Drawing inspiration from Medusa, our approach adopts a single-model strategy for speculative decoding. However, our method distinguishes itself by employing a single, lightweight draft head with a recurrent dependency design, akin in essence to the small, draft model uses in classic speculative decoding, but without the complexities of the full transformer architecture. And because of the recurrent dependency, we can use beam search to swiftly filter out undesired candidates with the draft head. The outcome is a method that combines the simplicity of single-model design and avoids the need to create a data-dependent tree attention structure only for inference in Medusa. We empirically demonstrate the effectiveness of the proposed method on several popular open source language models, along with a comprehensive analysis of the trade-offs involved in adopting this approach.

arxiv情報

著者 Aonan Zhang,Chong Wang,Yi Wang,Xuanyu Zhang,Yunfei Cheng
発行日 2024-05-30 17:55:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク