要約
スパースの混合物(MOE)アーキテクチャは、大規模な言語モデル(LLM)を効率的にスケーリングするためにますます好まれていますが、不均一な計算とメモリリソースに依存します。
これらの要因は、システムのコスト、精度、パフォーマンス(CAP)に共同で影響を与え、トレードオフを避けられません。
既存のベンチマークは、多くの場合、これらのトレードオフを正確にキャプチャできず、実用的な展開の決定を複雑にします。
これに対処するために、MOEシステム向けに特別に設計されたベンチマークであるMOE-CAPを紹介します。
私たちの分析では、CAP全体で最適なバランスをとることは、現在のハードウェアでは困難であることが明らかになりました。
MOEシステムは通常、MOE-CAPのトレードオフと呼ばれる3番目のダイナミクスを犠牲にして、3つの次元のうち2つを最適化します。
これを視覚化するために、キャップレーダー図を提案します。
さらに、スパースを意識したパフォーマンスメトリックスパースメモリ帯域幅使用率(S-MBU)およびスパースモデルフロップ利用(S-MFU)を紹介し、多様なハードウェアプラットフォームと展開シナリオ全体でMOEシステムの正確なパフォーマンスベンチマークを可能にします。
要約(オリジナル)
The sparse Mixture-of-Experts (MoE) architecture is increasingly favored for scaling Large Language Models (LLMs) efficiently, but it depends on heterogeneous compute and memory resources. These factors jointly affect system Cost, Accuracy, and Performance (CAP), making trade-offs inevitable. Existing benchmarks often fail to capture these trade-offs accurately, complicating practical deployment decisions. To address this, we introduce MoE-CAP, a benchmark specifically designed for MoE systems. Our analysis reveals that achieving an optimal balance across CAP is difficult with current hardware; MoE systems typically optimize two of the three dimensions at the expense of the third-a dynamic we term the MoE-CAP trade-off. To visualize this, we propose the CAP Radar Diagram. We further introduce sparsity-aware performance metrics-Sparse Memory Bandwidth Utilization (S-MBU) and Sparse Model FLOPS Utilization (S-MFU)-to enable accurate performance benchmarking of MoE systems across diverse hardware platforms and deployment scenarios.
arxiv情報
著者 | Yinsicheng Jiang,Yao Fu,Yeqi Huang,Ping Nie,Zhan Lu,Leyang Xue,Congjie He,Man-Kit Sit,Jilong Xue,Li Dong,Ziming Miao,Dayou Du,Tairan Xu,Kai Zou,Edoardo Ponti,Luo Mai |
発行日 | 2025-05-16 16:28:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google