要約
Sparse Mixture of Experts (MoE) モデルは、パフォーマンスの点では高密度 Large Language Model (LLM) よりも優れていますが、メモリ要求が高いため、推論中に重大な展開の課題に直面しています。
アクティブなエキスパートとアイドル状態のエキスパートを GPU と CPU の間で交換する既存のオフロード手法は、多くの場合、厳格なエキスパート キャッシュ メカニズムに悩まされます。
これらのメカニズムは動的ルーティングに適応できず、キャッシュの使用効率が低下したり、予測トレーニングに法外なコストがかかったりします。
これらの推論特有の課題に取り組むために、柔軟なルーティングに対応し、CPU と GPU 間の効率的なエキスパート スケジューリングを可能にすることで推論効率を高めるように特別に設計された包括的なシステムである ExpertFlow を導入します。
これによりオーバーヘッドが削減され、システムのパフォーマンスが向上します。
私たちのアプローチの中心となるのは、計算を開始する前にルーティング パスを正確に予測する軽量の予測子を利用する予測ルーティング パス ベースのオフロード メカニズムです。
このプロアクティブな戦略により、エキスパート キャッシングでのリアルタイムのエラー修正が可能になり、キャッシュ ヒット率が大幅に向上し、エキスパート転送の頻度が減少するため、I/O オーバーヘッドが最小限に抑えられます。
さらに、異なるバッチ間で入力トークンを再配置することで MoE 推論を最適化する動的なトークン スケジューリング戦略を実装します。
この方法は、バッチごとにアクティブ化されるエキスパートの数を減らすだけでなく、計算効率も向上します。
当社の広範な実験では、ExpertFlow が最大 93.72% の GPU メモリ節約を達成し、ベースライン手法と比較して推論速度が 2 ~ 10 倍向上することが実証されており、リソースに制約のある推論シナリオに対する堅牢なソリューションとしての有効性と有用性が強調されています。
要約(オリジナル)
Sparse Mixture of Experts (MoE) models, while outperforming dense Large Language Models (LLMs) in terms of performance, face significant deployment challenges during inference due to their high memory demands. Existing offloading techniques, which involve swapping activated and idle experts between the GPU and CPU, often suffer from rigid expert caching mechanisms. These mechanisms fail to adapt to dynamic routing, leading to inefficient cache utilization, or incur prohibitive costs for prediction training. To tackle these inference-specific challenges, we introduce ExpertFlow, a comprehensive system specifically designed to enhance inference efficiency by accommodating flexible routing and enabling efficient expert scheduling between CPU and GPU. This reduces overhead and boosts system performance. Central to our approach is a predictive routing path-based offloading mechanism that utilizes a lightweight predictor to accurately forecast routing paths before computation begins. This proactive strategy allows for real-time error correction in expert caching, significantly increasing cache hit ratios and reducing the frequency of expert transfers, thereby minimizing I/O overhead. Additionally, we implement a dynamic token scheduling strategy that optimizes MoE inference by rearranging input tokens across different batches. This method not only reduces the number of activated experts per batch but also improves computational efficiency. Our extensive experiments demonstrate that ExpertFlow achieves up to 93.72\% GPU memory savings and enhances inference speed by 2 to 10 times compared to baseline methods, highlighting its effectiveness and utility as a robust solution for resource-constrained inference scenarios.
arxiv情報
著者 | Xin He,Shunkang Zhang,Yuxin Wang,Haiyan Yin,Zihao Zeng,Shaohuai Shi,Zhenheng Tang,Xiaowen Chu,Ivor Tsang,Ong Yew Soon |
発行日 | 2024-10-23 15:24:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google