Flover: A Temporal Fusion Framework for Efficient Autoregressive Model Parallel Inference

要約

急速に進化する深層学習の分野では、モデルがより複雑になり、さまざまなアプリケーションに導入されるにつれて、モデル推論のパフォーマンスが極めて重要な要素となっています。
これらの中で、自己回帰モデルは、多数の生成タスクにおける最先端のパフォーマンスにより際立っています。
これらのモデルは設計上、現在のトークンの確率分布が前のトークンに基づいて条件付けされる時間依存構造を利用します。
ただし、この本質的に逐次的な特性はマルコフ連鎖の仮定に準拠しており、時間的並列性が欠けているため、特有の課題が生じます。
特に、ポアソン時間分布に従う推論リクエストが多様な応答長を必要とする産業環境では、この並列性の欠如はさらに深刻になります。
それにも関わらず、動的バッチ処理や同時モデル インスタンスなどの既存のソリューションには重大なオーバーヘッドと柔軟性の欠如が伴い、これらの粗い方法では最適なレイテンシとスループットを達成することができません。
これらの欠点に対処するために、私たちは Flavor を提案します。これは、自己回帰モデルでの効率的な推論のための時間融合フレームワークであり、ヒューリスティック設定の必要性を排除し、幅広い推論シナリオに適用されます。
リクエストの一時性に対してよりきめ細かい並列処理を提供し、効率的なメモリ シャッフル アルゴリズムを採用することで、Flover は、NVIDIA Triton FasterTransformer が提供する最先端のソリューションと比較して、GPT モデルで最大 11 倍高速な推論を実現します。
重要なのは、高度なテンソル並列技術を活用することで、Flover がシングル GPU セットアップからマルチノード シナリオに至るまで、さまざまな計算環境にわたって効果的であることが証明されており、それによってハードウェアの境界を超えた堅牢なパフォーマンスの最適化を提供します。

要約(オリジナル)

In the rapidly evolving field of deep learning, the performance of model inference has become a pivotal aspect as models become more complex and are deployed in diverse applications. Among these, autoregressive models stand out due to their state-of-the-art performance in numerous generative tasks. These models, by design, harness a temporal dependency structure, where the current token’s probability distribution is conditioned on preceding tokens. This inherently sequential characteristic, however, adheres to the Markov Chain assumption and lacks temporal parallelism, which poses unique challenges. Particularly in industrial contexts where inference requests, following a Poisson time distribution, necessitate diverse response lengths, this absence of parallelism is more profound. Existing solutions, such as dynamic batching and concurrent model instances, nevertheless, come with severe overheads and a lack of flexibility, these coarse-grained methods fall short of achieving optimal latency and throughput. To address these shortcomings, we propose Flavor — a temporal fusion framework for efficient inference in autoregressive models, eliminating the need for heuristic settings and applies to a wide range of inference scenarios. By providing more fine-grained parallelism on the temporality of requests and employing an efficient memory shuffle algorithm, Flover achieves up to 11x faster inference on GPT models compared to the cutting-edge solutions provided by NVIDIA Triton FasterTransformer. Crucially, by leveraging the advanced tensor parallel technique, Flover proves efficacious across diverse computational landscapes, from single-GPU setups to multi-node scenarios, thereby offering robust performance optimization that transcends hardware boundaries.

arxiv情報

著者 Jinghan Yao,Nawras Alnaasan,Tian Chen,Aamir Shafi,Hari Subramoni,Dhabaleswar K.,Panda
発行日 2023-05-24 17:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DC, cs.LG パーマリンク