要約
タイトル:地理的に分散したデータセンターの持続可能なAIワークロードスケジューリング:マルチエージェント強化学習アプローチ
要約:
– 機械学習の需要の高まりにより、トレーニングにかかるエネルギー消費の大きさによって、コストと環境に対する課題が発生している。
– ジオデータセンターにおいてトレーニングジョブのスケジューリングを行うことで、低コストかつ低炭素エネルギーによって駆動されるコンピューティング能力の最適活用を可能にし、ワークロードの偏りに対処することができる。
– 複数の目的を持ったスケジューリング、つまりGPU利用率を最大化しつつ運用コストを削減することを狙いとして、マルチエージェント強化学習とアクター・クリティック法に基づいたアルゴリズムを提案する。
– 実際のワークロードパターン、エネルギー価格、炭素インテンシティを持つクラウドシステムとの相互作用を通じて、最適な協調スケジューリング戦略を学習することができる。
– 他のアルゴリズムと比較して、提案された方法により、より高いGPU利用率、より低いエネルギーコスト、そしてより少ない炭素排出により、システムユーティリティを最大28.6%向上させることができる。
要約(オリジナル)
Recent breakthroughs in generative artificial intelligence have triggered a surge in demand for machine learning training, which poses significant cost burdens and environmental challenges due to its substantial energy consumption. Scheduling training jobs among geographically distributed cloud data centers unveils the opportunity to optimize the usage of computing capacity powered by inexpensive and low-carbon energy and address the issue of workload imbalance. To tackle the challenge of multi-objective scheduling, i.e., maximizing GPU utilization while reducing operational costs, we propose an algorithm based on multi-agent reinforcement learning and actor-critic methods to learn the optimal collaborative scheduling strategy through interacting with a cloud system built with real-life workload patterns, energy prices, and carbon intensities. Compared with other algorithms, our proposed method improves the system utility by up to 28.6% attributable to higher GPU utilization, lower energy cost, and less carbon emission.
arxiv情報
著者 | Siyue Zhang,Minrui Xu,Wei Yang Bryan Lim,Dusit Niyato |
発行日 | 2023-04-17 02:12:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI