要約
グラフニューラルネットワーク(GNNS)は、非ユークリッドデータのパフォーマンスにより最近注目を集めています。
カスタムハードウェアアーキテクチャの使用は、グラフのまばらな構造に起因する不規則なメモリアクセスパターンのため、GNNにとって特に有益です。
ただし、既存のFPGAアクセラレータは、典型的なグラフデータセットの不規則なノード分布を考慮していない二重バッファリングメカニズムによって制限されています。
これに対処するために、新しいイベント駆動型プログラミングフローを活用するFPGAアクセラレータである\ textbf {ample}(Accelerated Message Passing Logic Engine)を紹介します。
混合アリスメティックアーキテクチャを開発し、GNN推論をノードレベルの粒度で量子化できるようにします。
最後に、データと命令のプリフェッチャーが実装されており、オフチップメモリアクセスを最適化し、ノードの並列性を最大化します。
引用およびソーシャルメディアグラフデータセットの評価$ 2 $ kから$ 700 $ kノードの範囲は、CPUとGPUの対応物に対してそれぞれ243 \ Times $ $ 243 \ Times $と$ 7.2 \ Times $の平均スピードアップを示しました。
要約(オリジナル)
Graph Neural Networks (GNNs) have recently gained attention due to their performance on non-Euclidean data. The use of custom hardware architectures proves particularly beneficial for GNNs due to their irregular memory access patterns, resulting from the sparse structure of graphs. However, existing FPGA accelerators are limited by their double buffering mechanism, which doesn’t account for the irregular node distribution in typical graph datasets. To address this, we introduce \textbf{AMPLE} (Accelerated Message Passing Logic Engine), an FPGA accelerator leveraging a new event-driven programming flow. We develop a mixed-arithmetic architecture, enabling GNN inference to be quantized at a node-level granularity. Finally, prefetcher for data and instructions is implemented to optimize off-chip memory access and maximize node parallelism. Evaluation on citation and social media graph datasets ranging from $2$K to $700$K nodes showed a mean speedup of $243\times$ and $7.2\times$ against CPU and GPU counterparts, respectively.
arxiv情報
| 著者 | Pedro Gimenes,Yiren Zhao,George Constantinides |
| 発行日 | 2025-02-28 16:14:16+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google