LoopTune: Optimizing Tensor Computations with Reinforcement Learning

要約

高度なコンパイラ テクノロジは、機械学習アプリケーションを新しいハードウェアで実行できるようにするために不可欠ですが、従来のコンパイラはパフォーマンスを発揮できず、人気のある自動チューナーは検索時間が長く、専門家によって最適化されたライブラリは持続不可能なコストをもたらします。
これに対処するために、CPU の深層学習モデルのテンソル計算を最適化する深層強化学習コンパイラーである LoopTune を開発しました。
LoopTune は、超高速軽量コード ジェネレーター LoopNest を使用してハードウェア固有の最適化を実行しながら、テンソル走査順序を最適化します。
新しいグラフベースの表現とアクション空間により、LoopTune は LoopNest を 3.2 倍高速化して、TVM よりも桁違いに高速なコードを生成し、MetaSchedule より 2.8 倍、AutoTVM より 1.08 倍高速にし、手のレベルで一貫してパフォーマンスを発揮します。
-調整されたライブラリ Numpy。
さらに、LoopTune はコードを秒単位で調整します。

要約(オリジナル)

Advanced compiler technology is crucial for enabling machine learning applications to run on novel hardware, but traditional compilers fail to deliver performance, popular auto-tuners have long search times and expert-optimized libraries introduce unsustainable costs. To address this, we developed LoopTune, a deep reinforcement learning compiler that optimizes tensor computations in deep learning models for the CPU. LoopTune optimizes tensor traversal order while using the ultra-fast lightweight code generator LoopNest to perform hardware-specific optimizations. With a novel graph-based representation and action space, LoopTune speeds up LoopNest by 3.2x, generating an order of magnitude faster code than TVM, 2.8x faster than MetaSchedule, and 1.08x faster than AutoTVM, consistently performing at the level of the hand-tuned library Numpy. Moreover, LoopTune tunes code in order of seconds.

arxiv情報

著者 Dejan Grubisic,Bram Wasti,Chris Cummins,John Mellor-Crummey,Aleksandar Zlateski
発行日 2023-09-08 17:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.PL パーマリンク