REST: Retrieval-Based Speculative Decoding

要約

言語モデル生成を高速化するために設計された新しいアルゴリズム、REST(Retrieval-Based Speculative Decoding)を紹介する。RESTの開発の原動力となった重要な洞察は、テキスト生成のプロセスには特定の共通フェーズとパターンがしばしば含まれるという観察である。推測的解読のためにドラフト言語モデルに依存するこれまでの手法とは異なり、RESTはドラフトトークンを生成するために検索の力を利用する。このメソッドは既存の知識のリザーバーから引き出し、現在のコンテキストに基づいて関連するトークンを検索して使用する。プラグアンドプレイの性質により、追加のトレーニングを必要とすることなく、あらゆる言語モデルをシームレスに統合し、高速化することができます。7Bおよび13Bの言語モデルをシングルバッチでベンチマークしたところ、RESTはコードまたはテキスト生成において1.62倍から2.36倍という大幅な高速化を達成した。RESTのコードはhttps://github.com/FasterDecoding/REST。

要約(オリジナル)

We introduce Retrieval-Based Speculative Decoding (REST), a novel algorithm designed to speed up language model generation. The key insight driving the development of REST is the observation that the process of text generation often includes certain common phases and patterns. Unlike previous methods that rely on a draft language model for speculative decoding, REST harnesses the power of retrieval to generate draft tokens. This method draws from the reservoir of existing knowledge, retrieving and employing relevant tokens based on the current context. Its plug-and-play nature allows for seamless integration and acceleration of any language models, all without necessitating additional training. When benchmarked on 7B and 13B language models in a single-batch setting, REST achieves a significant speedup of 1.62X to 2.36X on code or text generation. The code of REST is available at https://github.com/FasterDecoding/REST.

arxiv情報

著者 Zhenyu He,Zexuan Zhong,Tianle Cai,Jason D. Lee,Di He
発行日 2024-04-04 11:37:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク