Communication Compression for Tensor Parallel LLM Inference

要約

大規模言語モデル (LLM) は人工知能の最前線を押し広げてきましたが、これは数千億のパラメーターと操作で構成されています。
推論レイテンシを高速化するために、LLM はさまざまなモデル並列化戦略を通じて複数のハードウェア アクセラレータにデプロイされます。
私たちの論文では、そのような戦略の 1 つである Tensor Parallel について詳しく調査し、アクセラレータ間の通信を圧縮することでレイテンシを削減することを提案しています。
きめ細かい量子化技術を活用して、選択したアクティベーションを 3.5 ~ 4.5 倍に圧縮します。
私たちが提案した方法は、モデルのパフォーマンスの低下を無視しながら、最初のトークンまでの時間 (TTFT) を最大 2 倍短縮します。

要約(オリジナル)

Large Language Models (LLMs) have pushed the frontier of artificial intelligence but are comprised of hundreds of billions of parameters and operations. For faster inference latency, LLMs are deployed on multiple hardware accelerators through various Model Parallelism strategies. Our paper looks into the details on one such strategy – Tensor Parallel – and proposes to reduce latency by compressing inter-accelerator communication. We leverage fine grained quantization techniques to compress selected activations by 3.5 – 4.5x. Our proposed method leads up to 2x reduction of time-to-first-token (TTFT) with negligible model performance degradation.

arxiv情報

著者 Jan Hansen-Palmus,Michael Truong Le,Oliver Hausdörfer,Alok Verma
発行日 2024-11-15 10:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク