要約
大規模言語モデル (LLM) 向けの効率的で高度に構成可能な推論エンジンである Inferflow を紹介します。
Inferflow を使用すると、ユーザーはソース コードを 1 行も記述することなく、対応する構成ファイルのいくつかの行を変更するだけで、ほとんどの一般的なトランス モデルを提供できます。
既存のほとんどの推論エンジンと比較して、Inferflow にはいくつかの重要な機能があります。
まず、アトミックなビルドブロックとテクノロジーのモジュール式フレームワークを実装することにより、Inferflow は新しいモデルに構成的に一般化できます。
次に、3 ビット量子化と 4 ビット量子化の間のトレードオフとして、3.5 ビット量子化が Inferflow に導入されました。
3 番目に、マルチ GPU 推論のためのハイブリッド モデル パーティショニングが Inferflow に導入され、既存のレイヤごとのパーティションやテンソルごとのパーティション戦略よりも推論速度とスループットのバランスが良くなります。
要約(オリジナル)
We present Inferflow, an efficient and highly configurable inference engine for large language models (LLMs). With Inferflow, users can serve most of the common transformer models by simply modifying some lines in corresponding configuration files, without writing a single line of source code. Compared with most existing inference engines, Inferflow has some key features. First, by implementing a modular framework of atomic build-blocks and technologies, Inferflow is compositionally generalizable to new models. Second, 3.5-bit quantization is introduced in Inferflow as a tradeoff between 3-bit and 4-bit quantization. Third, hybrid model partitioning for multi-GPU inference is introduced in Inferflow to better balance inference speed and throughput than the existing partition-by-layer and partition-by-tensor strategies.
arxiv情報
著者 | Shuming Shi,Enbo Zhao,Deng Cai,Leyang Cui,Xinting Huang,Huayang Li |
発行日 | 2024-01-16 11:39:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google