Speculative Decoding with Big Little Decoder

要約

Transformer アーキテクチャに基づく大規模言語モデルの最近の出現により、自然言語処理の分野で劇的な進歩が可能になりました。
ただし、これらのモデルは推論レイテンシが長いため、その展開が制限され、さまざまなリアルタイム アプリケーションにとって法外なコストがかかります。
トークンレベルの並列化を利用せずにモデルを反復実行してトークンを順次生成する必要があるため、推論のレイテンシは自己回帰生成タスクによってさらに悪化します。
これに対処するために、広範囲のテキスト生成アプリケーションの推論効率と遅延を改善できるフレームワークである Big Little Decoder (BiLD) を提案します。
BiLD フレームワークには、共同してテキストを生成する、サイズの異なる 2 つのモデルが含まれています。
小規模モデルは自己回帰的に実行され、低い推論コストでテキストを生成します。大規模モデルは、非自己回帰的な方法で小規模モデルの不正確な予測を改良するために時折のみ呼び出されます。
小規模モデルと大規模モデルを調整するために、BiLD は 2 つのシンプルかつ効果的なポリシーを導入しています。(1) 制御をいつ大規模モデルに引き渡すかを決定するフォールバック ポリシー。
(2) 大規模モデルが小規模モデルの不正確な予測をいつ修正する必要があるかを決定するロールバック ポリシー。
さまざまなタスクやモデルにわたってフレームワークを評価するために、IWSLT 2017 De-En および WMT 2014 De-En での機械翻訳、および XSUM および CNN/DailyMail での要約を含むさまざまなテキスト生成シナリオに BiLD を適用します。
NVIDIA T4 GPU 上で、当社のフレームワークは、生成品質の低下を最小限に抑えながら、最大 2.12 倍の高速化を実現します。
さらに、私たちのフレームワークは完全にプラグアンドプレイであり、トレーニング プロセスやモデル アーキテクチャを変更することなく適用できます。
私たちのコードはオープンソースです

要約(オリジナル)

The recent emergence of Large Language Models based on the Transformer architecture has enabled dramatic advancements in the field of Natural Language Processing. However, these models have long inference latency, which limits their deployment and makes them prohibitively expensive for various real-time applications. The inference latency is further exacerbated by autoregressive generative tasks, as models need to run iteratively to generate tokens sequentially without leveraging token-level parallelization. To address this, we propose Big Little Decoder (BiLD), a framework that can improve inference efficiency and latency for a wide range of text generation applications. The BiLD framework contains two models with different sizes that collaboratively generate text. The small model runs autoregressively to generate text with a low inference cost, and the large model is only invoked occasionally to refine the small model’s inaccurate predictions in a non-autoregressive manner. To coordinate the small and large models, BiLD introduces two simple yet effective policies: (1) the fallback policy that determines when to hand control over to the large model; and (2) the rollback policy that determines when the large model needs to correct the small model’s inaccurate predictions. To evaluate our framework across different tasks and models, we apply BiLD to various text generation scenarios encompassing machine translation on IWSLT 2017 De-En and WMT 2014 De-En, and summarization on XSUM and CNN/DailyMail. On an NVIDIA T4 GPU, our framework achieves a speedup of up to 2.12x speedup with minimal generation quality degradation. Furthermore, our framework is fully plug-and-play and can be applied without any modifications in the training process or model architecture. Our code is open-sourced

arxiv情報

著者 Sehoon Kim,Karttikeya Mangalam,Suhong Moon,Jitendra Malik,Michael W. Mahoney,Amir Gholami,Kurt Keutzer
発行日 2023-10-12 17:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク