要約
大規模なマルチモーダルモデル(LMMS)は、画像、ビデオ、オーディオを超えたテキストを理解する上で印象的な機能を示しています。
ただし、生産環境でLMMを効率的に提供することは、複雑なアーキテクチャとマルチステージの推論パイプライン全体にわたる不均一な特性により、大きな課題をもたらします。
6つの代表的なオープンソースモデルにわたって、2つの顕著なLMMアーキテクチャ、デコーダーのみ、およびクロスアテナンスの2つの顕著なLMMアーキテクチャの最初の包括的なシステム分析を提示し、主要なシステムの設計上の意味を明らかにします。
また、生産LMM推論トレースの詳細な分析を提示し、可変、重尾のリクエスト分布、爆発性交通パターンなどの一意のワークロード特性を明らかにします。
これらの洞察に基づいて、独立した最適化と適応スケーリングのためにステージを切り離すモジュラーLMMサービングシステムであるModServeを提案します。
ModServeは、コストを最小限に抑えながら、テールレイテンシースロを満たすために、モダリティを認識したスケジューリングと自動焦点で段階とハンドルの段階とハンドルを処理します。
ModServeは、生産トレースを備えた128-GPUクラスターでSLOを満たしながら、3.3〜5.5倍高いスループット(25〜41.3%のコスト削減につながる)を達成します。
要約(オリジナル)
Large multimodal models (LMMs) demonstrate impressive capabilities in understanding images, videos, and audio beyond text. However, efficiently serving LMMs in production environments poses significant challenges due to their complex architectures and heterogeneous characteristics across their multi-stage inference pipelines. We present the first comprehensive systems analysis of two prominent LMM architectures, decoder-only and cross-attention, across six representative open-source models, revealing key systems design implications. We also present an in-depth analysis of production LMM inference traces, uncovering unique workload characteristics, including variable, heavy-tailed request distributions and bursty traffic patterns. Based on these insights, we propose ModServe, a modular LMM serving system that decouples stages for independent optimization and adaptive scaling. ModServe dynamically reconfigures stages and handles bursty traffic with modality-aware scheduling and autoscaling to meet tail latency SLOs while minimizing costs. ModServe achieves 3.3-5.5x higher throughput (leading to 25-41.3% cost saving) while meeting SLOs on a 128-GPU cluster with production traces.
arxiv情報
著者 | Haoran Qiu,Anish Biswas,Zihan Zhao,Jayashree Mohan,Alind Khare,Esha Choukse,Íñigo Goiri,Zeyu Zhang,Haiying Shen,Chetan Bansal,Ramachandran Ramjee,Rodrigo Fonseca |
発行日 | 2025-03-21 16:53:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google