Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications

要約

従来のHPCと新しいML方法論を組み合わせたハイブリッドワークフローは、科学的コンピューティングを変革しています。
このペーパーでは、AI-Out-HPCワークフローをサポートするためにサービスベースの実行でラジカルパイロットを拡張するスケーラブルなランタイムシステムのアーキテクチャと実装を紹介します。
ランタイムシステムにより、分散ML機能、効率的なリソース管理、およびローカルおよびリモートのプラットフォーム全体でシームレスなHPC/MLカップリングが可能になります。
予備的な実験結果は、私たちのアプローチが、最小限のアーキテクチャオーバーヘッドでローカルおよびリモートHPC/クラウドリソース全体でMLモデルの同時実行を管理することを示しています。
これは、3つの代表的なデータ駆動型ワークフローアプリケーションをプロトタイプし、リーダーシップクラスのHPCプラットフォームで規模のように実行するための基盤となります。

要約(オリジナル)

Hybrid workflows combining traditional HPC and novel ML methodologies are transforming scientific computing. This paper presents the architecture and implementation of a scalable runtime system that extends RADICAL-Pilot with service-based execution to support AI-out-HPC workflows. Our runtime system enables distributed ML capabilities, efficient resource management, and seamless HPC/ML coupling across local and remote platforms. Preliminary experimental results show that our approach manages concurrent execution of ML models across local and remote HPC/cloud resources with minimal architectural overheads. This lays the foundation for prototyping three representative data-driven workflow applications and executing them at scale on leadership-class HPC platforms.

arxiv情報

著者 Andre Merzky,Mikhail Titov,Matteo Turilli,Ozgur Kilic,Tianle Wang,Shantenu Jha
発行日 2025-03-17 16:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク