要約
高エネルギー消費量は、高性能コンピューティング(HPC)システムの重要な課題であり、多くの場合、アイドルモードやスタンバイモードでも大きなパワーを引き出す数百または数千のノードを備えています。
未使用のノードを電源で動作させるとエネルギー効率が向上する可能性がありますが、そうするために間違った時間を選択すると、ジョブの実行を遅らせることでサービス品質を低下させる可能性があります。
機械学習、特に強化学習(RL)は、ノードをオンまたはオフにするための最適な時間を決定することを約束しています。
この研究では、カリキュラム学習(CL)を統合することにより、HPC電力管理のディープ補強学習(DRL)エージェントのパフォーマンスを強化します。これは、徐々に困難を増やすタスクを導入するトレーニングアプローチです。
Batsim-Pyシミュレーションフレームワークを使用して、提案されたCLベースのエージェントをベースラインDRLメソッド(CLなし)と従来の固定タイムタイムアウト戦略の両方と比較します。
実験結果は、無駄なエネルギー使用量を削減するという点で、ハードが簡単なカリキュラムが他のトレーニング注文を上回ることを確認しています。
ベストエージェントは、ベースラインDRLメソッドよりも3.73%のエネルギー削減を達成し、最適なタイムアウト構成(アイドル時間の15分ごとにシャットダウン)と比較して4.66%の改善を達成します。
さらに、平均雇用待ち時間を9.24%削減し、より高い求人速度を維持し、より効果的なリソースの利用率を示しています。
さまざまなスイッチオン期間、パワーレベル、クラスターサイズにわたる感度テストにより、再訓練なしでシステムパラメーターの変更に対するエージェントの適応性がさらに明らかになります。
これらの調査結果は、カリキュラム学習がHPCのDRLベースの電力管理を大幅に改善し、エネルギー節約、サービスの質、多様な構成への堅牢性を大幅に改善できることを示しています。
要約(オリジナル)
High energy consumption remains a key challenge in high-performance computing (HPC) systems, which often feature hundreds or thousands of nodes drawing substantial power even in idle or standby modes. Although powering down unused nodes can improve energy efficiency, choosing the wrong time to do so can degrade quality of service by delaying job execution. Machine learning, in particular reinforcement learning (RL), has shown promise in determining optimal times to switch nodes on or off. In this study, we enhance the performance of a deep reinforcement learning (DRL) agent for HPC power management by integrating curriculum learning (CL), a training approach that introduces tasks with gradually increasing difficulty. Using the Batsim-py simulation framework, we compare the proposed CL-based agent to both a baseline DRL method (without CL) and the conventional fixed-time timeout strategy. Experimental results confirm that an easy-to-hard curriculum outperforms other training orders in terms of reducing wasted energy usage. The best agent achieves a 3.73% energy reduction over the baseline DRL method and a 4.66% improvement compared to the best timeout configuration (shutdown every 15 minutes of idle time). In addition, it reduces average job waiting time by 9.24% and maintains a higher job-filling rate, indicating more effective resource utilization. Sensitivity tests across various switch-on durations, power levels, and cluster sizes further reveal the agent’s adaptability to changing system parameters without retraining. These findings demonstrate that curriculum learning can significantly improve DRL-based power management in HPC, balancing energy savings, quality of service, and robustness to diverse configurations.
arxiv情報
著者 | Thomas Budiarjo,Santana Yuda Pradata,Kadek Gemilang Santiyuda,Muhammad Alfian Amrizal,Reza Pulungan,Hiroyuki Takizawa |
発行日 | 2025-02-27 18:19:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google