Mixture of Attentions For Speculative Decoding

要約

大規模言語モデル(LLM)のパラメータ数の増加により、計算要件が大幅に急増し、導入が困難でコスト高になっている。投機的デコーディング(SD)は、より小さなモデルを活用して将来のトークンを効率的に提案し、それをLLMが並行して検証します。LLMからのアクティベーションを利用する小型モデルは、現在のところ最速のデコード速度を達成している。しかし、SDモデルには、学習中のオンポリシー性の欠如や部分的な観測可能性など、いくつかの限界があることが分かっている。これらの欠点に対処するため、我々はSDのための注意の混合を導入することで、小さなモデルのより地に足のついたアーキテクチャを提案する。我々の新しいアーキテクチャは2つのシナリオで適用できる:従来の単一デバイス展開と、小型モデルが消費者デバイス上でホストされ、LLMがサーバー上でホストされる新しいクライアント・サーバー展開である。シングルデバイスシナリオでは、EAGLE-2を9.5%改善し、アクセプタンス長を25%改善する最先端のスピードアップを実証した。クライアント・サーバー環境での実験では、以下のことが実証された:1) さまざまなネットワーク条件において、サーバーへの呼び出しを最小限に抑えた最先端の待ち時間、2) 完全に接続が切断された場合でも、本アプローチは他のSD手法と比較して高い精度を維持することができ、そうでなければ生成プロセスを継続できないLLMへのAPI呼び出しよりも優れていること。

要約(オリジナル)

The growth in the number of parameters of Large Language Models (LLMs) has led to a significant surge in computational requirements, making them challenging and costly to deploy. Speculative decoding (SD) leverages smaller models to efficiently propose future tokens, which are then verified by the LLM in parallel. Small models that utilise activations from the LLM currently achieve the fastest decoding speeds. However, we identify several limitations of SD models including the lack of on-policyness during training and partial observability. To address these shortcomings, we propose a more grounded architecture for small models by introducing a Mixture of Attentions for SD. Our novel architecture can be applied in two scenarios: a conventional single device deployment and a novel client-server deployment where the small model is hosted on a consumer device and the LLM on a server. In a single-device scenario, we demonstrate state-of-the-art speedups improving EAGLE-2 by 9.5% and its acceptance length by 25%. In a client-server setting, our experiments demonstrate: 1) state-of-the-art latencies with minimal calls to the server for different network conditions, and 2) in the event of a complete disconnection, our approach can maintain higher accuracy compared to other SD methods and demonstrates advantages over API calls to LLMs, which would otherwise be unable to continue the generation process.

arxiv情報

著者 Matthieu Zimmer,Milan Gritta,Gerasimos Lampouras,Haitham Bou Ammar,Jun Wang
発行日 2025-04-03 14:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク