Transfer-Learning-Based Autotuning Using Gaussian Copula

要約

多様なハイ パフォーマンス コンピューティング (HPC) システムが構築されるにつれ、アプリケーションがこれまで以上に大きな問題を解決する機会が数多く生まれています。
これらの HPC システムとアプリケーション チューニングの複雑さが大幅に増加していることを考慮して、自動チューニングなどの経験に基づくパフォーマンス チューニングが近年、有望なアプローチとして浮上しています。
自動チューニングは、その有効性にもかかわらず、多くの場合、計算コストがかかるアプローチです。
転移学習 (TL) ベースの自動チューニングは、以前のチューニングからのデータを活用することでこの問題に対処しようとします。
現在の自動チューニングの TL 手法は、パラメーター構成とパフォーマンスの関係のモデル化に多大な時間を費やしますが、これは新しいタスクの少数ショット (つまり、経験的評価がほとんどない) チューニングには効果的ではありません。
ガウス コピュラ (GC) に基づく最初の生成 TL ベースの自動チューニング アプローチを導入し、以前のデータから検索空間のパフォーマンスの高い領域をモデル化し、新しいタスク用にパフォーマンスの高い構成を生成します。
これにより、少数ショットのパフォーマンスを最大化するサンプリング ベースのアプローチが可能になり、効果的な TL ベースの自動調整のための少数ショット バジェットの最初の確率的推定が可能になります。
いくつかのベンチマークで、生成 TL アプローチと最先端の自動チューニング技術を比較します。
GC は最初の評価でピークの数ショット パフォーマンスの 64.37% を達成できることがわかりました。
さらに、GC モデルは、最大 33.39$\times$ の高速化を実現する数ショットの転送バジェットを決定できます。これは、従来の技術を使用した場合の 20.58$\times$ の高速化に比べて劇的な改善です。

要約(オリジナル)

As diverse high-performance computing (HPC) systems are built, many opportunities arise for applications to solve larger problems than ever before. Given the significantly increased complexity of these HPC systems and application tuning, empirical performance tuning, such as autotuning, has emerged as a promising approach in recent years. Despite its effectiveness, autotuning is often a computationally expensive approach. Transfer learning (TL)-based autotuning seeks to address this issue by leveraging the data from prior tuning. Current TL methods for autotuning spend significant time modeling the relationship between parameter configurations and performance, which is ineffective for few-shot (that is, few empirical evaluations) tuning on new tasks. We introduce the first generative TL-based autotuning approach based on the Gaussian copula (GC) to model the high-performing regions of the search space from prior data and then generate high-performing configurations for new tasks. This allows a sampling-based approach that maximizes few-shot performance and provides the first probabilistic estimation of the few-shot budget for effective TL-based autotuning. We compare our generative TL approach with state-of-the-art autotuning techniques on several benchmarks. We find that the GC is capable of achieving 64.37% of peak few-shot performance in its first evaluation. Furthermore, the GC model can determine a few-shot transfer budget that yields up to 33.39$\times$ speedup, a dramatic improvement over the 20.58$\times$ speedup using prior techniques.

arxiv情報

著者 Thomas Randall,Jaehoon Koo,Brice Videau,Michael Kruse,Xingfu Wu,Paul Hovland,Mary Hall,Rong Ge,Prasanna Balaprakash
発行日 2024-01-09 16:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, G.3 パーマリンク