要約
従来のHPCと新しいML方法論を組み合わせたハイブリッドワークフローは、科学的コンピューティングを変革しています。
このペーパーでは、AI-Out-HPCワークフローをサポートするためにサービスベースの実行でラジカルパイロットを拡張するスケーラブルなランタイムシステムのアーキテクチャと実装を紹介します。
ランタイムシステムにより、分散ML機能、効率的なリソース管理、およびローカルおよびリモートのプラットフォーム全体でシームレスなHPC/MLカップリングが可能になります。
予備的な実験結果は、私たちのアプローチが、最小限のアーキテクチャオーバーヘッドでローカルおよびリモートHPC/クラウドリソース全体でMLモデルの同時実行を管理することを示しています。
これは、3つの代表的なデータ駆動型ワークフローアプリケーションをプロトタイプし、リーダーシップクラスのHPCプラットフォームで規模のように実行するための基盤となります。
要約(オリジナル)
Hybrid workflows combining traditional HPC and novel ML methodologies are transforming scientific computing. This paper presents the architecture and implementation of a scalable runtime system that extends RADICAL-Pilot with service-based execution to support AI-out-HPC workflows. Our runtime system enables distributed ML capabilities, efficient resource management, and seamless HPC/ML coupling across local and remote platforms. Preliminary experimental results show that our approach manages concurrent execution of ML models across local and remote HPC/cloud resources with minimal architectural overheads. This lays the foundation for prototyping three representative data-driven workflow applications and executing them at scale on leadership-class HPC platforms.
arxiv情報
著者 | Andre Merzky,Mikhail Titov,Matteo Turilli,Ozgur Kilic,Tianle Wang,Shantenu Jha |
発行日 | 2025-03-17 16:21:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google