要約
深いニューラルネットワークの精度、スループット、および効率の改善の継続的な必要性により、FPGAのカスタムアーキテクチャを最大限に活用する多くの方法が生まれました。
これらには、手作りのネットワークの作成と、無関係なネットワークパラメーターを減らすための量子化と剪定の使用が含まれます。
ただし、静的ソリューションの可能性がすでに十分に活用されているため、個々のデータサンプルのさまざまな難易度を使用して、効率をさらに向上させ、分類の平均計算を減らすことに焦点を移すことを提案します。
入力依存の計算により、結果が信頼のしきい値を満たしている場合、ネットワークがランタイム決定を下すことができます。
早期拡張ネットワークアーキテクチャは、そのような動作をソフトウェアに実装するためのますます一般的な方法になっています。
作成する:ハードウェアアーリーエキシットネットワークオートメーション(ATHEENA)のツールフロー、そのようなネットワークから早期に出てくるサンプルの確率を活用して、ネットワークのさまざまなセクションに割り当てられたリソースを拡大する自動FPGAツールフロー。
このツールフローは、FPGACONVNETのデータフローモデルを使用して、早期存在ネットワークをサポートするように拡張され、設計スペース探索を設計して、精度を維持しながらスループット/還元領域を増やすことを目的として生成されたストリーミングアーキテクチャハードウェアを最適化します。
3つの異なるネットワークでの実験結果は、早期出口のない最適化されたベースラインネットワーク実装と比較して、$ 2.00 \ times $ $ 2.78 \ times $のスループットの増加を示しています。
さらに、ツールフローは、ベースラインに必要なリソースの46ドル\%$の低いベースラインと一致するスループットを実現できます。
要約(オリジナル)
The continued need for improvements in accuracy, throughput, and efficiency of Deep Neural Networks has resulted in a multitude of methods that make the most of custom architectures on FPGAs. These include the creation of hand-crafted networks and the use of quantization and pruning to reduce extraneous network parameters. However, with the potential of static solutions already well exploited, we propose to shift the focus to using the varying difficulty of individual data samples to further improve efficiency and reduce average compute for classification. Input-dependent computation allows for the network to make runtime decisions to finish a task early if the result meets a confidence threshold. Early-Exit network architectures have become an increasingly popular way to implement such behaviour in software. We create: A Toolflow for Hardware Early-Exit Network Automation (ATHEENA), an automated FPGA toolflow that leverages the probability of samples exiting early from such networks to scale the resources allocated to different sections of the network. The toolflow uses the data-flow model of fpgaConvNet, extended to support Early-Exit networks as well as Design Space Exploration to optimize the generated streaming architecture hardware with the goal of increasing throughput/reducing area while maintaining accuracy. Experimental results on three different networks demonstrate a throughput increase of $2.00\times$ to $2.78\times$ compared to an optimized baseline network implementation with no early exits. Additionally, the toolflow can achieve a throughput matching the same baseline with as low as $46\%$ of the resources the baseline requires.
arxiv情報
著者 | Benjamin Biggs,Christos-Savvas Bouganis,George A. Constantinides |
発行日 | 2025-04-14 14:54:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google