要約
機械学習とシミュレーションを融合するアプリケーションは、複数のコンピューティング リソースを使用することでメリットを得ることができます。たとえば、高度に並列化されたスーパーコンピューターで実行されるシミュレーション コードや、特殊なアクセラレーターでの AI トレーニングおよび推論タスクなどがあります。
ここでは、このような異種システム全体に 2 つの AI ガイド付きシミュレーション ワークフローを展開した経験を紹介します。
私たちのアプローチのユニークな側面は、クラウドでホストされた管理サービスを使用して、リソース間の認証と承認、サービスとしての機能 (FaaS) 関数の呼び出し、およびデータ転送の困難な側面を管理することです。
これらの方法が、リソース間の直接接続に依存するシステムと同等のパフォーマンスを達成できることを示します。
FaaS システムとデータ転送機能を、マネージャーとワーカーの間で参照によってデータを渡すシステムと統合し、ユーザーが構成可能なステアリング アルゴリズムを統合して、データ転送の待ち時間を隠すことにより、パリティを実現します。
この使いやすさにより、計算科学における異種リソースの日常的な使用が可能になると予想されます。
要約(オリジナル)
Applications that fuse machine learning and simulation can benefit from the use of multiple computing resources, with, for example, simulation codes running on highly parallel supercomputers and AI training and inference tasks on specialized accelerators. Here, we present our experiences deploying two AI-guided simulation workflows across such heterogeneous systems. A unique aspect of our approach is our use of cloud-hosted management services to manage challenging aspects of cross-resource authentication and authorization, function-as-a-service (FaaS) function invocation, and data transfer. We show that these methods can achieve performance parity with systems that rely on direct connection between resources. We achieve parity by integrating the FaaS system and data transfer capabilities with a system that passes data by reference among managers and workers, and a user-configurable steering algorithm to hide data transfer latencies. We anticipate that this ease of use can enable routine use of heterogeneous resources in computational science.
arxiv情報
著者 | Logan Ward,J. Gregory Pauloski,Valerie Hayot-Sasson,Ryan Chard,Yadu Babuji,Ganesh Sivaraman,Sutanay Choudhury,Kyle Chard,Rajeev Thakur,Ian Foster |
発行日 | 2023-03-15 17:54:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google