要約
投機的デコード(SD)は、効率的なドラフトモデルを使用して次の数トークンを提案することにより、大規模な言語モデル(LLM)生成を加速します。これは、1回のフォワードコールでLLMによって検証され、出力を維持しながら遅延を減らします。
ドラフトモデルがノンパラメトリックデータストアから次のトークンを取得する検索ベースのSDに焦点を当てています。
ストリングの表面形式で動作するスパース検索(REST)は、そのシンプルさとスケーラビリティのために現在、支配的なパラダイムです。
ただし、短いコンテキストの使用と正確な文字列のマッチングにより、その有効性は限られています。
代わりに、SDの最も意味的に関連するトークンシーケンスを取得するためにコンテキスト化されたトークン埋め込みを使用して、近似の近隣検索を使用する新しいフレームワークである投機的デコード(DRESD)の密な検索を導入します。
大規模な実験では、DRESDが(平均して)87%の受け入れ率、65%が受け入れられたトークン、およびスパース検索(REST)と比較して19%の生成速度を19%達成することが示されています。
要約(オリジナル)
Speculative decoding (SD) accelerates Large Language Model (LLM) generation by using an efficient draft model to propose the next few tokens, which are verified by the LLM in a single forward call, reducing latency while preserving its outputs. We focus on retrieval-based SD where the draft model retrieves the next tokens from a non-parametric datastore. Sparse retrieval (REST), which operates on the surface form of strings, is currently the dominant paradigm due to its simplicity and scalability. However, its effectiveness is limited due to the usage of short contexts and exact string matching. Instead, we introduce Dense Retrieval for Speculative Decoding (DReSD), a novel framework that uses approximate nearest neighbour search with contextualised token embeddings to retrieve the most semantically relevant token sequences for SD. Extensive experiments show that DReSD achieves (on average) 87% higher acceptance rates, 65% longer accepted tokens and 19% faster generation speeds compared to sparse retrieval (REST).
arxiv情報
著者 | Milan Gritta,Huiyin Xue,Gerasimos Lampouras |
発行日 | 2025-02-21 16:32:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google