BanditWare: A Contextual Bandit-based Framework for Hardware Prediction

要約

分散コンピューティングシステムは、最新のアプリケーションの要求を満たすために不可欠ですが、単一システムから分散環境への移行には大きな課題があります。
共有システムのリソースを誤って変動すると、リソースの競合、システムの不安定性、パフォーマンスの低下、優先度の反転、非効率的な利用、レイテンシの増加、環境への影響が生じる可能性があります。
コンテキストマルチアライドバンディットアルゴリズムを使用して、アプリケーションに最適なハードウェアを動的に選択するオンライン推奨システムであるBanditwareを提示します。
Banditwareは探査と搾取のバランスを取り、観察されたアプリケーションのパフォーマンスに基づいてハードウェアの推奨事項を徐々に改良し、潜在的に優れたオプションを探求し続けます。
大規模な歴史的データセットに大きく依存する従来の統計的および機械学習アプローチとは異なり、Banditwareはオンラインで運用され、新しいワークロードが到着するにつれてリアルタイムで学習および適応します。
3つのワークフローアプリケーションでBanditwareを評価しました:サイクル(農業科学科学ワークフロー)BurnPro3D(火災科学のWebベースのプラットフォーム)とマトリックス増殖アプリケーション。
National Data Platform(NDP)とのシームレスな統合のために設計されたBanditwareにより、すべてのエクスペリエンスレベルのユーザーがリソース割り当てを効率的に最適化できるようになります。

要約(オリジナル)

Distributed computing systems are essential for meeting the demands of modern applications, yet transitioning from single-system to distributed environments presents significant challenges. Misallocating resources in shared systems can lead to resource contention, system instability, degraded performance, priority inversion, inefficient utilization, increased latency, and environmental impact. We present BanditWare, an online recommendation system that dynamically selects the most suitable hardware for applications using a contextual multi-armed bandit algorithm. BanditWare balances exploration and exploitation, gradually refining its hardware recommendations based on observed application performance while continuing to explore potentially better options. Unlike traditional statistical and machine learning approaches that rely heavily on large historical datasets, BanditWare operates online, learning and adapting in real-time as new workloads arrive. We evaluated BanditWare on three workflow applications: Cycles (an agricultural science scientific workflow) BurnPro3D (a web-based platform for fire science) and a matrix multiplication application. Designed for seamless integration with the National Data Platform (NDP), BanditWare enables users of all experience levels to optimize resource allocation efficiently.

arxiv情報

著者 Tainã Coleman,Hena Ahmed,Ravi Shende,Ismael Perez,Ïlkay Altintaş
発行日 2025-06-16 17:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク