GCV-Turbo: End-to-end Acceleration of GNN-based Computer Vision Tasks on FPGA


最近、グラフ ニューラル ネットワーク (GNN) により、さまざまな新しいコンピューター ビジョン (CV) タスクが強化されました。
GNN ベースの CV タスクでは、CNN 層と GNN 層の組み合わせ、または GNN 層のみが使用されます。
このペーパーでは、GNN ベースの CV タスクをエンドツーエンドで高速化するための FPGA 上のドメイン固有アクセラレータである GCV-Turbo を紹介します。
GCV-Turbo は 2 つの重要なコンポーネントで構成されます: (1) 同じ計算リソースのセットを使用する CNN と GNN の両方の計算カーネル用に最適化された \emph{novel} ハードウェア アーキテクチャ。
(2) ユーザー定義モデルを入力として受け取り、特定の GNN ベースの CV タスクの計算グラフに対してエンドツーエンドの最適化を実行し、ハードウェア実行用に最適化されたコードを生成する PyTorch 互換コンパイラー。
ハードウェア アーキテクチャとコンパイラは相乗的に動作して、さまざまな GNN ベースの CV タスクをサポートします。
私たちは GCV-Turbo を最先端の FPGA に実装し、多様な入力データ モダリティ (画像、人間の骨格、点群など) を使用した 6 つの代表的な GNN ベースの CV タスクにわたってそのパフォーマンスを評価します。
最先端の CPU (GPU) 実装と比較して、GCV-Turbo は、これら 6 つの GNN ベースの CV タスクで、平均で $68.4\times$ ($4.1\times$) のレイテンシー削減を達成します。
さらに、GCV-Turbo はスタンドアロン CNN または GNN の実行をサポートし、広く使用されている CNN 専用 (GNN 専用) モデルの最先端の CNN (GNN) アクセラレータに匹敵するパフォーマンスを実現します。


Graph neural networks (GNNs) have recently empowered various novel computer vision (CV) tasks. In GNN-based CV tasks, a combination of CNN layers and GNN layers or only GNN layers are employed. This paper introduces GCV-Turbo, a domain-specific accelerator on FPGA for end-to-end acceleration of GNN-based CV tasks. GCV-Turbo consists of two key components: (1) a \emph{novel} hardware architecture optimized for the computation kernels in both CNNs and GNNs using the same set of computation resources. (2) a PyTorch-compatible compiler that takes a user-defined model as input, performs end-to-end optimization for the computation graph of a given GNN-based CV task, and produces optimized code for hardware execution. The hardware architecture and the compiler work synergistically to support a variety of GNN-based CV tasks. We implement GCV-Turbo on a state-of-the-art FPGA and evaluate its performance across six representative GNN-based CV tasks with diverse input data modalities (e.g., image, human skeleton, point cloud). Compared with state-of-the-art CPU (GPU) implementations, GCV-Turbo achieves an average latency reduction of $68.4\times$ ($4.1\times$) on these six GNN-based CV tasks. Moreover, GCV-Turbo supports the execution of the standalone CNNs or GNNs, achieving performance comparable to that of state-of-the-art CNN (GNN) accelerators for widely used CNN-only (GNN-only) models.


著者 Bingyi Zhang,Rajgopal Kannan,Carl Busart,Viktor Prasanna
発行日 2024-04-10 17:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, eess.IV パーマリンク