Harmonized Speculative Sampling

要約

投機的サンプリングは、受け入れ率がパフォーマンスを大きく左右する大規模な言語モデルからのデコードを高速化する効果的なソリューションであることが証明されています。
受け入れ率の向上に関するこれまでの研究のほとんどは、調整されたトレーニングと効率的なデコーディングに焦点を当てており、トレーニングとデコーディングの連携には暗黙のうちにあまり注意を払っていませんでした。
この研究では、まず投機的サンプリングのトレーニングとデコードの関連性を調査し、次に HArmonized Speculative Sampling (HASS) という名前のソリューションを提案します。
HASS は、目的とコンテキストに基づいてトレーニングとデコードを調和させることで、余分な推論オーバーヘッドを発生させずに受け入れ率を向上させます。
3 つの LLaMA モデルでの実験では、HASS が 3 つのデータセットの平均で実時間の 2.81 倍から 3.65 倍の高速化率を達成しており、これは EAGLE-2 より 8% ~ 15% 高速であることが実証されています。

要約(オリジナル)

Speculative sampling has proven to be an effective solution to accelerate decoding from large language models, where the acceptance rate significantly determines the performance. Most previous works on improving the acceptance rate focus on aligned training and efficient decoding, implicitly paying less attention to the linkage of training and decoding. In this work, we first investigate the linkage of training and decoding for speculative sampling and then propose a solution named HArmonized Speculative Sampling (HASS). HASS improves the acceptance rate without extra inference overhead by harmonizing training and decoding on their objectives and contexts. Experiments on three LLaMA models demonstrate that HASS achieves 2.81x-3.65x wall-clock time speedup ratio averaging across three datasets, which is 8%-15% faster than EAGLE-2.

arxiv情報

著者 Lefan Zhang,Xiaodan Wang,Yanhua Huang,Ruiwen Xu
発行日 2024-08-28 12:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク