Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding

要約

大規模言語モデル (LLM) は実際に広く普及しており、翻訳、要約、指示のフォローなどの生成タスクに広く使用されています。
ただし、その巨大なサイズと自己回帰デコーディングへの依存により、導入コストが増加し、遅延が重要なアプリケーションでの使用が複雑になります。
この研究では、異なるサイズの言語モデルを組み合わせて、高いパフォーマンスを維持しながら自己回帰デコードの効率を高めるハイブリッド アプローチを提案します。
私たちの方法では、すべてのプロンプト トークンを一度に並列でエンコードする事前トレーニング済みのフローズン LLM を利用し、その結果の表現を使用して小型言語モデル (SLM) を条件付けおよびガイドし、より効率的に応答を生成します。
エンコーダ – デコーダ LLM と、さまざまなモデル ファミリのエンコーダ – デコーダおよびデコーダ専用 SLM の両方との組み合わせを調査し、必要なのは SLM の微調整のみです。
さまざまなベンチマークを使用した実験では、LLM と比較して、翻訳および要約タスクで $1-2\%$ のわずかなパフォーマンスの低下を伴うものの、最大 $4\time$ の大幅な高速化が示されました。

要約(オリジナル)

Large language models (LLMs) have become ubiquitous in practice and are widely used for generation tasks such as translation, summarization and instruction following. However, their enormous size and reliance on autoregressive decoding increase deployment costs and complicate their use in latency-critical applications. In this work, we propose a hybrid approach that combines language models of different sizes to increase the efficiency of autoregressive decoding while maintaining high performance. Our method utilizes a pretrained frozen LLM that encodes all prompt tokens once in parallel, and uses the resulting representations to condition and guide a small language model (SLM), which then generates the response more efficiently. We investigate the combination of encoder-decoder LLMs with both encoder-decoder and decoder-only SLMs from different model families and only require fine-tuning of the SLM. Experiments with various benchmarks show substantial speedups of up to $4\times$, with minor performance penalties of $1-2\%$ for translation and summarization tasks compared to the LLM.

arxiv情報

著者 Benjamin Bergner,Andrii Skliar,Amelie Royer,Tijmen Blankevoort,Yuki Asano,Babak Ehteshami Bejnordi
発行日 2024-07-17 13:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク