Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning

要約

テンソルプログラムのチューニングは、深いニューラルネットワークの効率的な展開に不可欠です。
検索ベースのアプローチは、特定のハードウェアの高性能プログラムを自動的に見つける際にスケーラビリティと有効性を実証しました。
ただし、多くの場合、検索プロセスは非効率的であり、正確ではあるが遅いコストモデルによって導かれる探索メカニズムのために、最適なプログラムを発見するために数時間または数日かかります。
一方、あるプラットフォームで訓練された学習コストモデルは、オンラインでシームレスにオンラインで適応することはできません。
この作業では、PrunerとMoa-Prunerを提案します。
Prunerは、スケジュールの検索プロセスを加速する「ドラフト – ヴェリフィー」探索メカニズムです。
複雑な学習コストモデルをすべての探索した候補者に適用する代わりに、Prunerは、ナイーブシンボルベースのアナライザー(ドラフトモデル)を導入することにより、小規模な潜在的な候補者をドラフトし、学習コストモデルで最高の候補者を特定します。
MOA-Prunerは、クロスプラットフォームのオンラインの不明確さに対処するための勢いのオンライン適応戦略を導入します。
PrunerをTVMに組み込み、3つのGPUベースのプラットフォームで広範な実験を実施します。
結果は、スケジュール検索時間のかなりの速度を示しています。
オンラインチューニングシナリオでは、PrunerとMOA-PrunerがANSORと比較して平均$ 2.6 \ Times $と4.82 \ Times $の平均スピードアップを達成します。
オフラインチューニングシナリオでは、Prunerは、それぞれTensetとTLPと比較して、それぞれ4.75 \ Times $ $ 4.05 \ Times $の平均スピードアップを達成します。
さらに、Prunerは、TensorcoreのMetascheduleと比較して、平均$ 4.08 \ Times $のスピードアップを達成します。

要約(オリジナル)

Tensor program tuning is essential for the efficient deployment of deep neural networks. Search-based approaches have demonstrated scalability and effectiveness in automatically finding high-performance programs for specific hardware. However, the search process is often inefficient, taking hours or even days to discover optimal programs due to the exploration mechanisms guided by an accurate but slow-learned cost model. Meanwhile, the learned cost model trained on one platform cannot seamlessly adapt online to another, which we call cross-platform online unawareness. In this work, we propose Pruner and MoA-Pruner. Pruner is a ‘Draft-then-Verify’ exploration mechanism that accelerates the schedule search process. Instead of applying the complex learned cost model to all explored candidates, Pruner drafts small-scale potential candidates by introducing a naive Symbol-based Analyzer (draft model), then identifies the best candidates by the learned cost model. MoA-Pruner introduces a Momentum online Adaptation strategy to address the cross-platform online unawareness. We incorporate Pruner into the TVM and conduct extensive experiments on three GPU-based platforms. Results show considerable speedup in schedule search time. In online tuning scenarios, Pruner and MoA-Pruner achieve an average speedup of $2.6 \times$ and $4.82 \times$ compared to Ansor. In offline tuning scenarios, Pruner achieves an average speedup of $4.75 \times$ and $4.05\times$ compared to TenSet and TLP, respectively. Furthermore, Pruner achieves an average speedup of $4.08 \times$ compared to MetaSchedule on TensorCore.

arxiv情報

著者 Liang Qiao,Jun Shi,Xiaoyu Hao,Xi Fang,Sen Zhang,Minfan Zhao,Ziqi Zhu,Junshi Chen,Hong An,Xulong Tang,Bing Li,Honghui Yuan,Xinyang Wang
発行日 2025-04-09 17:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク