Asynchronous Execution of Heterogeneous Tasks in ML-driven HPC Workflows

要約

異種科学ワークフローは、異種リソースでの実行を必要とする多数の種類のタスクで構成されます。
これらのタスクの非同期実行は、リソースの使用率、タスクのスループットを向上させ、ワークフローのメイクスパンを短縮するために非常に重要です。
したがって、異種リソース間でさまざまなタスク タイプをスケジュールおよび実行できるミドルウェアは、タスクの非同期実行を可能にする必要があります。
このペーパーでは、機械学習 (ML) 駆動のハイ パフォーマンス コンピューティング (HPC) ワークフローの非同期タスク実行の要件と特性を調査します。
私たちは、任意のワークフローに許容される非同期性の程度をモデル化し、非同期実行を採用する際の定性的なメリットを判断するために使用できる主要な指標を提案します。
私たちの実験は関連する科学的要因を表しており、Summit 上で大規模に実行し、非同期実行によるパフォーマンスの向上がモデルと一致していることを示しています。

要約(オリジナル)

Heterogeneous scientific workflows consist of numerous types of tasks that require executing on heterogeneous resources. Asynchronous execution of those tasks is crucial to improve resource utilization, task throughput and reduce workflows’ makespan. Therefore, middleware capable of scheduling and executing different task types across heterogeneous resources must enable asynchronous execution of tasks. In this paper, we investigate the requirements and properties of the asynchronous task execution of machine learning (ML)-driven high performance computing (HPC) workflows. We model the degree of asynchronicity permitted for arbitrary workflows and propose key metrics that can be used to determine qualitative benefits when employing asynchronous execution. Our experiments represent relevant scientific drivers, we perform them at scale on Summit, and we show that the performance enhancements due to asynchronous execution are consistent with our model.

arxiv情報

著者 Vincent R. Pascuzzi,Ozgur O. Kilic,Matteo Turilli,Shantenu Jha
発行日 2023-06-27 16:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク