Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

要約

Large Language Model (LLM) は、インテリジェント アシスタント、テキストの要約、翻訳、携帯電話でのマルチモダリティなどのタスクに広く採用されています。
ただし、オンデバイス LLM 展開の現在の方法では推論速度が遅いため、ユーザー エクスペリエンスが低下します。
デバイス GPU での高効率 LLM の展開を容易にするために、次の 4 つの最適化手法を提案します。(a) 動的形状モデル推論をサポートするシンボリック式ベースのアプローチ。
(b) オペレータの最適化と実行優先順位の設定により、推論速度が向上し、電話の遅延が軽減されます。
(c) 逆量子化オーバーヘッドを削減するための M0E4 と呼ばれる FP4 量子化方法。
(d) LLM 推論後の KV キャッシュのコピーの必要性を排除するサブテンソルベースの技術。
さらに、これらのメソッドは、Qualcomm プロセッサと MTK プロセッサの両方と互換性のあるモバイル推論エンジン Transformer-Lite に実装されています。
2B から 14B までのさまざまなアーキテクチャとパラメータを持つ LLM を使用して、Transformer-Lite のパフォーマンスを評価しました。
具体的には、ChatGLM2 6B ではプリフィル速度とデコード速度がそれぞれ 121 トークン/秒と 14 トークン/秒、より小型の Gemma 2B では 330 トークン/秒と 30 トークン/秒を達成しました。
CPU ベースの FastLLM や GPU ベースの MLC-LLM と比較して、当社のエンジンはプリフィル速度で 10 倍以上、デコード速度で 2 ~ 3 倍の高速化を達成します。

要約(オリジナル)

The Large Language Model (LLM) is widely employed for tasks such as intelligent assistants, text summarization, translation, and multi-modality on mobile phones. However, the current methods for on-device LLM deployment maintain slow inference speed, which causes poor user experience. To facilitate high-efficiency LLM deployment on device GPUs, we propose four optimization techniques: (a) a symbolic expression-based approach to support dynamic shape model inference; (b) operator optimizations and execution priority setting to enhance inference speed and reduce phone lagging; (c) an FP4 quantization method termed M0E4 to reduce dequantization overhead; (d) a sub-tensor-based technique to eliminate the need for copying KV cache after LLM inference. Furthermore, we implement these methods in our mobile inference engine, Transformer-Lite, which is compatible with both Qualcomm and MTK processors. We evaluated Transformer-Lite’s performance using LLMs with varied architectures and parameters ranging from 2B to 14B. Specifically, we achieved prefill and decoding speeds of 121 token/s and 14 token/s for ChatGLM2 6B, and 330 token/s and 30 token/s for smaller Gemma 2B, respectively. Compared with CPU-based FastLLM and GPU-based MLC-LLM, our engine attains over 10x speedup for the prefill speed and 2~3x speedup for the decoding speed.

arxiv情報

著者 Luchang Li,Sheng Qian,Jie Lu,Lunxi Yuan,Rui Wang,Qin Xie
発行日 2024-03-29 08:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク