GCV-Turbo: End-to-end Acceleration of GNN-based Computer Vision Tasks on FPGA

要約

最近、グラフ ニューラル ネットワーク (GNN) により、さまざまな新しいコンピューター ビジョン (CV) タスクが強化されました。
GNN ベースの CV タスクでは、CNN 層と GNN 層の組み合わせ、または GNN 層のみが使用されます。
このペーパーでは、GNN ベースの CV タスクをエンドツーエンドで高速化するための FPGA 上のドメイン固有アクセラレータである GCV-Turbo を紹介します。
GCV-Turbo は 2 つの重要なコンポーネントで構成されます: (1) 同じ計算リソースのセットを使用する CNN と GNN の両方の計算カーネル用に最適化された \emph{novel} ハードウェア アーキテクチャ。
(2) ユーザー定義モデルを入力として受け取り、特定の GNN ベースの CV タスクの計算グラフに対してエンドツーエンドの最適化を実行し、ハードウェア実行用に最適化されたコードを生成する PyTorch 互換コンパイラー。
ハードウェア アーキテクチャとコンパイラは相乗的に動作して、さまざまな GNN ベースの CV タスクをサポートします。
私たちは GCV-Turbo を最先端の FPGA に実装し、多様な入力データ モダリティ (画像、人間の骨格、点群など) を使用した 6 つの代表的な GNN ベースの CV タスクにわたってそのパフォーマンスを評価します。
最先端の CPU (GPU) 実装と比較して、GCV-Turbo は、これら 6 つの GNN ベースの CV タスクで、平均で $68.4\times$ ($4.1\times$) のレイテンシー削減を達成します。
さらに、GCV-Turbo はスタンドアロン CNN または GNN の実行をサポートし、広く使用されている CNN 専用 (GNN 専用) モデルの最先端の CNN (GNN) アクセラレータに匹敵するパフォーマンスを実現します。

要約(オリジナル)

Graph neural networks (GNNs) have recently empowered various novel computer vision (CV) tasks. In GNN-based CV tasks, a combination of CNN layers and GNN layers or only GNN layers are employed. This paper introduces GCV-Turbo, a domain-specific accelerator on FPGA for end-to-end acceleration of GNN-based CV tasks. GCV-Turbo consists of two key components: (1) a \emph{novel} hardware architecture optimized for the computation kernels in both CNNs and GNNs using the same set of computation resources. (2) a PyTorch-compatible compiler that takes a user-defined model as input, performs end-to-end optimization for the computation graph of a given GNN-based CV task, and produces optimized code for hardware execution. The hardware architecture and the compiler work synergistically to support a variety of GNN-based CV tasks. We implement GCV-Turbo on a state-of-the-art FPGA and evaluate its performance across six representative GNN-based CV tasks with diverse input data modalities (e.g., image, human skeleton, point cloud). Compared with state-of-the-art CPU (GPU) implementations, GCV-Turbo achieves an average latency reduction of $68.4\times$ ($4.1\times$) on these six GNN-based CV tasks. Moreover, GCV-Turbo supports the execution of the standalone CNNs or GNNs, achieving performance comparable to that of state-of-the-art CNN (GNN) accelerators for widely used CNN-only (GNN-only) models.

arxiv情報

著者 Bingyi Zhang,Rajgopal Kannan,Carl Busart,Viktor Prasanna
発行日 2024-04-10 17:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC, eess.IV パーマリンク