要約
アテンションベース ニューラル ネットワーク (NN) は、データ プリフェッチの重要なステップである正確なメモリ アクセス予測における有効性を実証しています。
ただし、これらのモデルに関連するかなりの計算オーバーヘッドにより推論レイテンシーが長くなり、実用的なプリフェッチャーとしての実現可能性が制限されます。
このギャップを埋めるために、予測精度を犠牲にすることなくモデルの複雑さと推論レイテンシを大幅に削減する表形式に基づく新しいアプローチを提案します。
私たちの新しい表形式化手法は、メモリアクセス予測のための、蒸留された高精度のアテンションベースのモデルを入力として取り、その高価な行列乗算を高速なテーブルルックアップの階層に効率的に変換します。
上記のアプローチの例として、単純なテーブル階層で構成されるプリフェッチャーである DART を開発します。
F1 スコアのわずか 0.09 の低下により、DART は、大規模なアテンションベースのモデルから算術演算を 99.99%、抽出モデルから 91.83% 削減します。
DART は、大規模モデルの推論を 170 倍、抽出されたモデルを 9.4 倍高速化します。
DART は、最先端のルールベースのプリフェッチャー BO と同等のレイテンシとストレージ コストを持っていますが、IPC の改善ではそれを 6.1% 上回っています。
DART は、主にプリフェッチのレイテンシーが低いため、IPC の向上の点で、最先端の NN ベースのプリフェッチャーである TransFetch を 33.1%、Voyager を 37.2% 上回っています。
要約(オリジナル)
Attention-based Neural Networks (NN) have demonstrated their effectiveness in accurate memory access prediction, an essential step in data prefetching. However, the substantial computational overheads associated with these models result in high inference latency, limiting their feasibility as practical prefetchers. To close the gap, we propose a new approach based on tabularization that significantly reduces model complexity and inference latency without sacrificing prediction accuracy. Our novel tabularization methodology takes as input a distilled, yet highly accurate attention-based model for memory access prediction and efficiently converts its expensive matrix multiplications into a hierarchy of fast table lookups. As an exemplar of the above approach, we develop DART, a prefetcher comprised of a simple hierarchy of tables. With a modest 0.09 drop in F1-score, DART reduces 99.99% of arithmetic operations from the large attention-based model and 91.83% from the distilled model. DART accelerates the large model inference by 170x and the distilled model by 9.4x. DART has comparable latency and storage costs as state-of-the-art rule-based prefetcher BO but surpasses it by 6.1% in IPC improvement. DART outperforms state-of-the-art NN-based prefetchers TransFetch by 33.1% and Voyager by 37.2% in terms of IPC improvement, primarily due to its low prefetching latency.
arxiv情報
著者 | Pengmiao Zhang,Neelesh Gupta,Rajgopal Kannan,Viktor K. Prasanna |
発行日 | 2024-01-16 09:29:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google