Employing Artificial Intelligence to Steer Exascale Workflows with Colmena

要約

計算ワークフローはスーパーコンピューター上のアプリケーションの一般的なクラスですが、ワークフローの疎結合および異種混合の性質により、その機能を最大限に活用できないことがよくあります。
私たちは、人工知能 (AI) を使用してワークフローの実行中に学習し、ワークフローを適応させることで、スーパーコンピューターの大規模並列処理を活用するために Colmena を作成しました。
Colmena を使用すると、科学者はアプリケーションが一連の協力的なエージェントとしてイベント (タスクの完了など) にどのように応答するかを定義できます。
このペーパーでは、Colmena の設計、エクサスケール システムにアプリケーションを展開する際に克服した課題、AI を織り交ぜることによって強化された科学ワークフローについて説明します。
ここで議論するスケーリングの課題には、ノード使用率を最大化するステアリング戦略の開発、データ集約型タスクの通信オーバーヘッドを削減するデータ ファブリックの導入、呼び出し間のコストのかかる操作をキャッシュするワークフロー タスクの実装などが含まれます。
これらのイノベーションと、エージェントベースのステアリング モデルを通じてアクセスできるさまざまなアプリケーション パターンが組み合わされて、さまざまな種類の AI を使用した化学、生物物理学、材料科学における科学の進歩が可能になりました。
私たちのビジョンは、コルメナが科学コンピューティングのさまざまな領域で AI を活用する創造的なソリューションを促進することです。

要約(オリジナル)

Computational workflows are a common class of application on supercomputers, yet the loosely coupled and heterogeneous nature of workflows often fails to take full advantage of their capabilities. We created Colmena to leverage the massive parallelism of a supercomputer by using Artificial Intelligence (AI) to learn from and adapt a workflow as it executes. Colmena allows scientists to define how their application should respond to events (e.g., task completion) as a series of cooperative agents. In this paper, we describe the design of Colmena, the challenges we overcame while deploying applications on exascale systems, and the science workflows we have enhanced through interweaving AI. The scaling challenges we discuss include developing steering strategies that maximize node utilization, introducing data fabrics that reduce communication overhead of data-intensive tasks, and implementing workflow tasks that cache costly operations between invocations. These innovations coupled with a variety of application patterns accessible through our agent-based steering model have enabled science advances in chemistry, biophysics, and materials science using different types of AI. Our vision is that Colmena will spur creative solutions that harness AI across many domains of scientific computing.

arxiv情報

著者 Logan Ward,J. Gregory Pauloski,Valerie Hayot-Sasson,Yadu Babuji,Alexander Brace,Ryan Chard,Kyle Chard,Rajeev Thakur,Ian Foster
発行日 2024-08-26 17:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク