Tandem Transformers for Inference Efficient LLMs

要約

トークンは順番に生成されるため、従来の大規模言語モデル (LLM) の自己回帰的な性質により、推論速度が本質的に制限されます。
投機的および並列デコード技術はこれを軽減しようとしますが、生成のために精度の低い小さなモデルに依存するか、ベース LLM の表現を完全に活用できないかのいずれかの制限に直面します。
これらの問題に対処するために、新しいアーキテクチャであるタンデム変圧器を導入します。
このアーキテクチャは、(1) 小規模な自己回帰モデルと (2) ブロック モードで動作する (複数のトークンを同時に処理する) 大きなモデルを独自に組み合わせたものです。
小規模モデルの予測精度は、大規模モデルのより豊かな表現に注意を向けることによって大幅に向上します。
PaLM2 事前トレーニング データセットでは、PaLM2-Bison と PaLM2-Gecko のタンデムは、スタンドアロンの PaLM2-Gecko と比較して次のトークンの予測精度が 3.3% 向上し、同等のダウンストリーム パフォーマンスを持つ PaLM2-Otter モデルと比較して 1.16 倍の高速化を実現します。

さらに、タンデム モデルを投機的デコード (SPEED) フレームワーク内に組み込み、大規模モデルが小規模モデルからのトークンを検証します。
これにより、PaLM2-Bison と PaLM2-Gecko のタンデムは、同一のダウンストリーム タスク精度を維持しながら、大幅な高速化 (通常の PaLM2-Gecko を SPEED で使用するより約 1.14 倍高速) を達成することが保証されます。

要約(オリジナル)

The autoregressive nature of conventional large language models (LLMs) inherently limits inference speed, as tokens are generated sequentially. While speculative and parallel decoding techniques attempt to mitigate this, they face limitations: either relying on less accurate smaller models for generation or failing to fully leverage the base LLM’s representations. We introduce a novel architecture, Tandem transformers, to address these issues. This architecture uniquely combines (1) a small autoregressive model and (2) a large model operating in block mode (processing multiple tokens simultaneously). The small model’s predictive accuracy is substantially enhanced by granting it attention to the large model’s richer representations. On the PaLM2 pretraining dataset, a tandem of PaLM2-Bison and PaLM2-Gecko demonstrates a 3.3% improvement in next-token prediction accuracy over a standalone PaLM2-Gecko, offering a 1.16x speedup compared to a PaLM2-Otter model with comparable downstream performance. We further incorporate the tandem model within the speculative decoding (SPEED) framework where the large model validates tokens from the small model. This ensures that the Tandem of PaLM2-Bison and PaLM2-Gecko achieves substantial speedup (around 1.14x faster than using vanilla PaLM2-Gecko in SPEED) while maintaining identical downstream task accuracy.

arxiv情報

著者 Aishwarya P S,Pranav Ajit Nair,Yashas Samaga,Toby Boyd,Sanjiv Kumar,Prateek Jain,Praneeth Netrapalli
発行日 2024-02-13 18:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク