要約
言語モデルの生成を高速化するために設計された新しいアルゴリズムである、検索ベースの投機的デコーディング (REST) を紹介します。
REST の開発を推進する重要な洞察は、テキスト生成のプロセスには特定の共通のフェーズとパターンが含まれることが多いという観察です。
投機的なデコードにドラフト言語モデルに依存する以前の方法とは異なり、REST は取得機能を利用してドラフト トークンを生成します。
このメソッドは、既存の知識の宝庫から引き出し、現在のコンテキストに基づいて関連するトークンを取得して使用します。
そのプラグアンドプレイの性質により、追加のトレーニングを必要とせずに、あらゆる言語モデルのシームレスな統合と高速化が可能になります。
単一バッチ設定で 7B および 13B 言語モデルでベンチマークを実行すると、REST はコードまたはテキストの生成で 1.62 倍から 2.36 倍の大幅な高速化を達成します。
REST のコードは https://github.com/FasterDecoding/REST で入手できます。
要約(オリジナル)
We introduce Retrieval-Based Speculative Decoding (REST), a novel algorithm designed to speed up language model generation. The key insight driving the development of REST is the observation that the process of text generation often includes certain common phases and patterns. Unlike previous methods that rely on a draft language model for speculative decoding, REST harnesses the power of retrieval to generate draft tokens. This method draws from the reservoir of existing knowledge, retrieving and employing relevant tokens based on the current context. Its plug-and-play nature allows for seamless integration and acceleration of any language models, all without necessitating additional training. When benchmarked on 7B and 13B language models in a single-batch setting, REST achieves a significant speedup of 1.62X to 2.36X on code or text generation. The code of REST is available at https://github.com/FasterDecoding/REST.
arxiv情報
著者 | Zhenyu He,Zexuan Zhong,Tianle Cai,Jason D Lee,Di He |
発行日 | 2023-11-14 15:43:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google