Multi-Candidate Speculative Decoding

要約

大規模な言語モデルは、さまざまな NLP タスクにわたって優れた機能を示していますが、テキストを自己回帰的に生成するには時間がかかります。
それらを高速化する 1 つの方法は、投機的デコードです。これは、高速ドラフト モデルから候補セグメント (トークンのシーケンス) を生成し、ターゲット モデルによって並行して検証されます。
ただし、候補トークンの受け入れ率は、モデル、データセット、デコード設定などのいくつかの要因から制限を受けます。
このペーパーでは、ドラフト モデルから複数の候補をサンプリングし、検証のためにそれらをバッチに整理することを提案します。
ターゲットモデルの分散を維持しながら、効率的に複数候補を検証するためのアルゴリズムを設計します。
私たちのアプローチは、複数のデータセットとモデルの受け入れ率の大幅な向上を示し、標準の投機的デコードを一貫して上回っています。

要約(オリジナル)

Large language models have shown impressive capabilities across a variety of NLP tasks, yet their generating text autoregressively is time-consuming. One way to speed them up is speculative decoding, which generates candidate segments (a sequence of tokens) from a fast draft model that is then verified in parallel by the target model. However, the acceptance rate of candidate tokens receives limitations from several factors, such as the model, the dataset, and the decoding setup. This paper proposes sampling multiple candidates from a draft model and then organising them in batches for verification. We design algorithms for efficient multi-candidate verification while maintaining the distribution of the target model. Our approach shows significant improvements in acceptance rates on multiple datasets and models, consistently outperforming standard speculative decoding.

arxiv情報

著者 Sen Yang,Shujian Huang,Xinyu Dai,Jiajun Chen
発行日 2024-01-12 17:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク