要約
タイトル:HARFLOW3D:FPGAデバイスにおけるHARのためのレイテンシ志向型3D-CNNアクセラレータツールフロー
要約:人間の動作認識タスク(HAR)において、3D畳み込みニューラルネットワークは高い効果を発揮し、最先端の結果を達成しています。この研究では、そのようなモデルをFPGAにマッピングするための新しいストリーミングアーキテクチャベースのツールフローを紹介します。 HARFLOW3Dツールフローは、3D CNNをONNX形式で入力し、モデルの固有の特性とターゲットのFPGAデバイスの特徴を考慮して、計算のレイテンシを最小化する設計を生成します。ツールフローには、i)3D CNNパーサー、ii)パフォーマンスとリソースモデル、iii)生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム、iv)3Dモデルに特化したリソース重視の最適化エンジン、v)FPGAの合成可能なコードに自動マッピングする部分が含まれます。ツールフローが広範囲のモデルとデバイスをサポートする能力は、さまざまな3D CNNとFPGAシステムのペアでの実験を通じて示されています。さらに、ツールフローは、FPGAにマッピングされていない3D CNNモデルの高性能な結果を出し、FPGAベースのシステムのポテンシャルを示しています。全体として、HARFLOW3Dは、いくつかの既存の手動チューニングアプローチと比較して競争力のあるレイテンシを提供する能力を示し、一部の既存の作品と比較して最大5倍のパフォーマンスを達成することができました。
要約(オリジナル)
For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model’s inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works.
arxiv情報
著者 | Petros Toupas,Alexander Montgomerie-Corcoran,Christos-Savvas Bouganis,Dimitrios Tzovaras |
発行日 | 2023-04-05 12:57:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI