HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices

要約

タイトル: HARFLOW3D:FPGAデバイスにおけるHARのためのレイテンシ志向の3D-CNNアクセラレータツールフロー

要約:

– 人間の行動認識(HAR)タスクにおいて、3D畳み込みニューラルネットワークは最新の結果を達成するために非常に効果的であることが証明されています。
– この研究では、モデルの固有の特性と対象となるFPGAデバイスの特性を考慮した、新しいストリーミングアーキテクチャベースのツールフローを導入しています。
– HARFLOW3Dツールフローは、ONNX形式の3D CNNとFPGAの特性の記述を入力として受け取り、計算のレイテンシを最小限に抑える設計を生成します。
– ツールフローは、以下のような様々な部品から構成されています。i)3D CNNパーサー、ii)パフォーマンスおよびリソースモデル、iii)生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム、iv)3Dモデルに合わせたリソースに配慮した最適化エンジン、v)FPGAに合成可能なコードへの自動マッピング。
– HARFLOW3Dツールフローは、さまざまな3D CNNおよびFPGAシステムペアに対する一連の実験を通じて、各種モデルおよびデバイスをサポートする能力を示しています。
– さらに、HARFLOW3Dは、FPGAにマップされていない3D CNNモデルに対しても高性能な結果を生み出し、この分野におけるFPGAベースのシステムの可能性を示しました。
– 全体的に、HARFLOW3Dは、手動で調整された最新の手法に比べて競争力のあるレイテンシを提供する能力を示し、一部の既存作品に比べて最大5倍の性能を実現することができます。

要約(オリジナル)

For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model’s inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works.

arxiv情報

著者 Petros Toupas,Alexander Montgomerie-Corcoran,Christos-Savvas Bouganis,Dimitrios Tzovaras
発行日 2023-04-11 13:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AR, cs.CV, cs.LG パーマリンク