要約
マルチコアおよびメニーコア プロセッサの最近の進歩により、科学計算アプリケーションのパフォーマンスが大幅に向上しました。
ただし、多数の複雑なコアを追加すると、全体的な消費電力も増加し、最新のプロセッサでは電力が第一の設計制約となっています。
ソフトウェアベースの電力制約を適用するだけで消費電力を制限できますが、やみくもに適用すると、重大なパフォーマンスの低下につながります。
最新のマルチコア プロセッサで科学アプリケーションのパフォーマンス、電力、およびエネルギー効率を改善するという課題に対処するために、(i) 事前定義された電力制約でランタイム パフォーマンスを最適化する新しいグラフ ニューラル ネットワーク ベースの自動チューニング アプローチを提案します。
(ii) エネルギー遅延積を最小化することにより、実行時のパフォーマンスとエネルギー効率を同時に最適化します。
このアプローチの背後にある重要なアイデアは、並列コード領域をフロー認識コード グラフとしてモデル化し、セマンティック コード機能と構造コード機能の両方をキャプチャすることにあります。
30 ドルのベンチマークと 68 ドルの OpenMP コード領域を使用したプロキシ/ミニ アプリケーションで広範な評価を実施することにより、アプローチの有効性を実証します。
私たちのアプローチは、32 コアの Skylake と 16 ドルのコアの Haswell プロセッサで、デフォルトの OpenMP 構成よりもそれぞれ 25\%$ と 13\%$ 以上の幾何平均パフォーマンスの向上をもたらす、さまざまな電力制約での OpenMP 構成を特定します。
さらに、エネルギー遅延積を最適化すると、自動チューナーによって選択された OpenMP 構成は、$21\%$ と $11\%$ のパフォーマンス向上と、$29\%$ と $18\%$ のエネルギー削減の両方を示します。
それぞれ、同じ Skylake および Haswell プロセッサの Thermal Design Power でのデフォルトの OpenMP 構成。
要約(オリジナル)
Recent advances in multi and many-core processors have led to significant improvements in the performance of scientific computing applications. However, the addition of a large number of complex cores have also increased the overall power consumption, and power has become a first-order design constraint in modern processors. While we can limit power consumption by simply applying software-based power constraints, applying them blindly will lead to non-trivial performance degradation. To address the challenge of improving the performance, power, and energy efficiency of scientific applications on modern multi-core processors, we propose a novel Graph Neural Network based auto-tuning approach that (i) optimizes runtime performance at pre-defined power constraints, and (ii) simultaneously optimizes for runtime performance and energy efficiency by minimizing the energy-delay product. The key idea behind this approach lies in modeling parallel code regions as flow-aware code graphs to capture both semantic and structural code features. We demonstrate the efficacy of our approach by conducting an extensive evaluation on $30$ benchmarks and proxy-/mini-applications with $68$ OpenMP code regions. Our approach identifies OpenMP configurations at different power constraints that yield a geometric mean performance improvement of more than $25\%$ and $13\%$ over the default OpenMP configuration on a 32-core Skylake and a $16$-core Haswell processor respectively. In addition, when we optimize for the energy-delay product, the OpenMP configurations selected by our auto-tuner demonstrate both performance improvement of $21\%$ and $11\%$ and energy reduction of $29\%$ and $18\%$ over the default OpenMP configuration at Thermal Design Power for the same Skylake and Haswell processors, respectively.
arxiv情報
著者 | Akash Dutta,Jee Choi,Ali Jannesari |
発行日 | 2023-02-22 16:06:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google