Performance Optimization using Multimodal Modeling and Heterogeneous GNN

要約

タイトル:Multimodal Modeling and Heterogeneous GNNを使用したパフォーマンス最適化

要約:

– HPCアーキテクチャにおける異質性と設定可能性の増加により、これらのシステム上での自動調整アプリケーションやランタイムパラメータの設定は非常に複雑になっている。
– 一般的な目的の検索戦略を使用することが一般的なアプローチであるが、これらは最適な構成を特定できないことがあり、収束までの時間が大きな障害となることがある。
– このため、多様な調整タスクに容易にスケーリングおよび適応できる一般的で効率的なチューニングアプローチが必要である。
– 本稿では、複数のタスクに適応できるように一般的な並列コードリージョンのチューニング技術を提案する。
– このために、IRベースのプログラミングモデルを分析し、タスク特定のパフォーマンス最適化を実現する。
– MGAチューナーは、異種グラフニューラルネットワークとDenoizingオートエンコーダを適応したマルチモーダルな深層学習ベースのアプローチであり、別々のモダリティとして機能するIRベースのコード表現をモデル化する。
– このアプローチは、構文、意味、構造に対するIRベースのコード表現をモデリングするために、パイプラインの一部として使用される。
– 我々は、PolyBench、Rodinia、STREAM、DataRaceBench、AMD SDK、NPB、NVIDIA SDK、Parboil、SHOC、およびLULESHベンチマークから取得したOpenMPおよびOpenCLコードリージョン/カーネルを大規模に実験し、
– i) OpenMPループのスレッド数、スケジューリングポリシー、チャンクサイズの最適化、
– ii) OpenCLカーネルの異種デバイスマッピングの最良のデバイスの識別
– 上記の多様な学習手法を適用して、このマルチモーダル学習ベースのアプローチがすべての実験において最先端の方法を凌駕することを示した。

要約(オリジナル)

Growing heterogeneity and configurability in HPC architectures has made auto-tuning applications and runtime parameters on these systems very complex. Users are presented with a multitude of options to configure parameters. In addition to application specific solutions, a common approach is to use general purpose search strategies, which often might not identify the best configurations or their time to convergence is a significant barrier. There is, thus, a need for a general purpose and efficient tuning approach that can be easily scaled and adapted to various tuning tasks. We propose a technique for tuning parallel code regions that is general enough to be adapted to multiple tasks. In this paper, we analyze IR-based programming models to make task-specific performance optimizations. To this end, we propose the Multimodal Graph Neural Network and Autoencoder (MGA) tuner, a multimodal deep learning based approach that adapts Heterogeneous Graph Neural Networks and Denoizing Autoencoders for modeling IR-based code representations that serve as separate modalities. This approach is used as part of our pipeline to model a syntax, semantics, and structure-aware IR-based code representation for tuning parallel code regions/kernels. We extensively experiment on OpenMP and OpenCL code regions/kernels obtained from PolyBench, Rodinia, STREAM, DataRaceBench, AMD SDK, NPB, NVIDIA SDK, Parboil, SHOC, and LULESH benchmarks. We apply our multimodal learning techniques to the tasks of i) optimizing the number of threads, scheduling policy and chunk size in OpenMP loops and, ii) identifying the best device for heterogeneous device mapping of OpenCL kernels. Our experiments show that this multimodal learning based approach outperforms the state-of-the-art in all experiments.

arxiv情報

著者 Akash Dutta,Jordi Alcaraz,Ali TehraniJamsaz,Eduardo Cesar,Anna Sikora,Ali Jannesari
発行日 2023-04-27 15:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DC, cs.LG, cs.PF パーマリンク