要約
グラフ畳み込みネットワーク (GCN) は、グラフ構造データの機械学習アプリケーションを構築するためによく使用されます。
この広範な採用により、専用の GCN ハードウェア アクセラレータが開発されました。
この研究では、GCN アクセラレータの主要なアーキテクチャ上の課題、つまりランダムなハードウェア障害から生じる GCN 計算のエラーを最小限の計算コストで検出する方法に取り組みます。
各 GCN レイヤーはグラフ畳み込みを実行します。これは、2 つの別々の行列乗算によって計算される 3 つの行列の乗算と数学的に同等です。
既存のアルゴリズムベースのフォールト トレランス (ABFT) 技術では、個々の行列乗算の結果をチェックできます。
ただし、GCN 層の場合、このチェックは 2 回実行する必要があります。
このオーバーヘッドを回避するために、この研究では、単一の GCN レイヤー内の 3 行列積全体のチェックサムを直接計算する GCN-ABFT を導入し、GCN アクセラレータでのエラー検出のためのコスト効率の高いアプローチを提供します。
実験結果では、GCN-ABFT により、代表的な GCN アプリケーションでチェックサム計算に必要な演算数が平均 21% 以上削減されることが実証されています。
これらの節約は、提示された障害挿入分析によって証明されているように、障害検出の精度を犠牲にすることなく達成されます。
要約(オリジナル)
Graph convolutional networks (GCNs) are popular for building machine-learning application for graph-structured data. This widespread adoption led to the development of specialized GCN hardware accelerators. In this work, we address a key architectural challenge for GCN accelerators: how to detect errors in GCN computations arising from random hardware faults with the least computation cost. Each GCN layer performs a graph convolution, mathematically equivalent to multiplying three matrices, computed through two separate matrix multiplications. Existing Algorithm-based Fault Tolerance(ABFT) techniques can check the results of individual matrix multiplications. However, for a GCN layer, this check should be performed twice. To avoid this overhead, this work introduces GCN-ABFT that directly calculates a checksum for the entire three-matrix product within a single GCN layer, providing a cost-effective approach for error detection in GCN accelerators. Experimental results demonstrate that GCN-ABFT reduces the number of operations needed for checksum computation by over 21% on average for representative GCN applications. These savings are achieved without sacrificing fault-detection accuracy, as evidenced by the presented fault-injection analysis.
arxiv情報
著者 | Christodoulos Peltekis,Giorgos Dimitrakopoulos |
発行日 | 2024-12-24 16:27:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google