要約
Transformer アーキテクチャに基づく大規模言語モデルの最近の出現により、自然言語処理の分野で劇的な進歩が可能になりました。
ただし、これらのモデルは推論のレイテンシーが長いため、展開が制限され、さまざまなリアルタイム アプリケーションにとって非常に高価になります。
トークンレベルの並列化を活用せずにモデルを繰り返し実行してトークンを順次生成する必要があるため、推論のレイテンシは自己回帰生成タスクによってさらに悪化します。
これに対処するために、幅広いテキスト生成アプリケーションの推論効率とレイテンシを改善できるフレームワークである Big Little Decoder (BiLD) を提案します。
BiLD フレームワークには、共同でテキストを生成するサイズの異なる 2 つのモデルが含まれています。
小さなモデルは自己回帰的に実行され、低い推論コストでテキストを生成します。大きなモデルは、小さなモデルの不正確な予測を非自己回帰的に改良するために時々呼び出されるだけです。
小規模モデルと大規模モデルを調整するために、BiLD は 2 つのシンプルで効果的なポリシーを導入します。(1) 大規模モデルに制御を渡すタイミングを決定するフォールバック ポリシー。
(2) 大規模モデルが小規模モデルの不正確な予測を確認して修正する必要がある時期を決定するロールバック ポリシー。
さまざまなタスクとモデルにわたってフレームワークを評価するために、IWSLT 2017 De-En および WMT 2014 De-En での機械翻訳、CNN/DailyMail での要約、および WikiText-2 での言語モデリングを含むさまざまなテキスト生成シナリオに BiLD を適用します。
NVIDIA Titan Xp GPU では、当社のフレームワークはパフォーマンスを低下させることなく最大 2.13 倍のスピードアップを達成し、最大 1 ポイントの低下で最大 2.38 倍のスピードアップを達成します。
さらに、モデル アーキテクチャのトレーニングや変更を必要としないため、フレームワークは完全にプラグ アンド プレイです。
私たちのコードはオープンソースになります。
要約(オリジナル)
The recent emergence of Large Language Models based on the Transformer architecture has enabled dramatic advancements in the field of Natural Language Processing. However, these models have long inference latency, which limits their deployment, and which makes them prohibitively expensive for various real-time applications. The inference latency is further exacerbated by autoregressive generative tasks, as models need to run iteratively to generate tokens sequentially without leveraging token-level parallelization. To address this, we propose Big Little Decoder (BiLD), a framework that can improve inference efficiency and latency for a wide range of text generation applications. The BiLD framework contains two models with different sizes that collaboratively generate text. The small model runs autoregressively to generate text with a low inference cost, and the large model is only invoked occasionally to refine the small model’s inaccurate predictions in a non-autoregressive manner. To coordinate the small and large models, BiLD introduces two simple yet effective policies: (1) the fallback policy that determines when to hand control over to the large model; and (2) the rollback policy that determines when the large model needs to review and correct the small model’s inaccurate predictions. To evaluate our framework across different tasks and models, we apply BiLD to various text generation scenarios encompassing machine translation on IWSLT 2017 De-En and WMT 2014 De-En, summarization on CNN/DailyMail, and language modeling on WikiText-2. On an NVIDIA Titan Xp GPU, our framework achieves a speedup of up to 2.13x without any performance drop, and it achieves up to 2.38x speedup with only ~1 point degradation. Furthermore, our framework is fully plug-and-play as it does not require any training or modifications to model architectures. Our code will be open-sourced.
arxiv情報
著者 | Sehoon Kim,Karttikeya Mangalam,Jitendra Malik,Michael W. Mahoney,Amir Gholami,Kurt Keutzer |
発行日 | 2023-02-15 18:55:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google