TTK is Getting MPI-Ready

要約

このシステム ペーパーは、メッセージ パッシング インターフェイス (MPI) を使用した分散メモリ並列処理へのトポロジ ツールキット (TTK) の拡張に関する技術的基盤を文書化しています。
最近のいくつかの論文では分散メモリ環境向けのトポロジベースのアプローチを紹介していますが、これらは調整されたモノラルアルゴリズムの実装で得られた実験を報告したものでした。
対照的に、この論文では、トポロジ解析パイプライン、つまり相互作用する一連のトポロジ アルゴリズムをサポートするための多用途アプローチ (三角形分割ドメインと通常のグリッドの両方をサポート) について説明します。
この拡張機能の開発中に、アルゴリズムおよびソフトウェア エンジニアリングのいくつかの課題に直面しました。それをこのホワイト ペーパーで文書化します。
我々は、TTK のトポロジー実装のグローバルなパフォーマンスと汎用性の中心となるコンポーネントである、三角測量表現とトラバーサルのための TTK データ構造の MPI 拡張について説明します。
また、グローバル パイプライン レベルと詳細なアルゴリズム レベルの両方で、TTK と MPI の間の中間インターフェイスも導入します。
通信ニーズに応じて、TTK によってサポートされる分散メモリ トポロジ アルゴリズムの分類を提供し、ハイブリッド MPI + スレッド並列化の例を提供します。
パフォーマンス分析の結果、並列効率は 20% から 80% の範囲 (アルゴリズムに応じて) であり、フレームワークによって導入された MPI 固有の事前調整によって引き起こされる計算時間のオーバーヘッドは無視できる程度であることが示されています。
複数のアルゴリズムを組み合わせた高度な分析パイプラインの例を使用して、TTK の新しい分散メモリ機能を説明します。このパイプラインは、64 ノード (合計 1536 コア) のクラスター上で発見された最大の公開データセット (1,200 億頂点) 上で実行されます。
)。
最後に、TTK の MPI 拡張機能の完成に向けたロードマップと、各アルゴリズム通信カテゴリの一般的な推奨事項を提供します。

要約(オリジナル)

This system paper documents the technical foundations for the extension of the Topology ToolKit (TTK) to distributed-memory parallelism with the Message Passing Interface (MPI). While several recent papers introduced topology-based approaches for distributed-memory environments, these were reporting experiments obtained with tailored, mono-algorithm implementations. In contrast, we describe in this paper a versatile approach (supporting both triangulated domains and regular grids) for the support of topological analysis pipelines, i.e. a sequence of topological algorithms interacting together. While developing this extension, we faced several algorithmic and software engineering challenges, which we document in this paper. We describe an MPI extension of TTK’s data structure for triangulation representation and traversal, a central component to the global performance and generality of TTK’s topological implementations. We also introduce an intermediate interface between TTK and MPI, both at the global pipeline level, and at the fine-grain algorithmic level. We provide a taxonomy for the distributed-memory topological algorithms supported by TTK, depending on their communication needs and provide examples of hybrid MPI+thread parallelizations. Performance analyses show that parallel efficiencies range from 20% to 80% (depending on the algorithms), and that the MPI-specific preconditioning introduced by our framework induces a negligible computation time overhead. We illustrate the new distributed-memory capabilities of TTK with an example of advanced analysis pipeline, combining multiple algorithms, run on the largest publicly available dataset we have found (120 billion vertices) on a cluster with 64 nodes (for a total of 1536 cores). Finally, we provide a roadmap for the completion of TTK’s MPI extension, along with generic recommendations for each algorithm communication category.

arxiv情報

著者 Eve Le Guillou,Michael Will,Pierre Guillou,Jonas Lukasczyk,Pierre Fortin,Christoph Garth,Julien Tierny
発行日 2024-04-15 09:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.CV, cs.DC, cs.LG, cs.MS パーマリンク