Fused Depthwise Tiling for Memory Optimization in TinyML Deep Neural Network Inference

要約

タイトル:TinyML深層ニューラルネットワーク推論におけるメモリ最適化のための融合Depthwise Tiling

要約:

– TinyMLでは、DNN推論タスクを小型、低消費電力マイクロコントローラに展開することを指します。オーディオキーワード検出やレーダーベースのジェスチャー認識などのアプリケーションは、DNN推論により大規模な中間実行時バッファを必要とするため、このような小さなデバイスの制限を受けます。
– 本論文では、既存のタイル方法に比べてランタイムオーバーヘッドを引き起こすことなく、DNNのメモリ最適化のための新しいFused Depthwise Tiling(FDT)メソッドを提案しています。FDTは、畳み込みに焦点を当てた既存のタイリング方法と比較して、より多様なネットワーク層に適用できます。
– 最適なタイリング構成を特定するために、新しいパス探索方法を使用したエンドツーエンドフローが提案されています。このフローは、FDTと既存のタイリング方法を完全に自動化して演算のスケジューリングやバッファのレイアウトの計画を含みます。
– 7つの評価モデルのうち、FDTは既存のタイリング方法が適用できなかった2つのモデルで76.2%と18.1%のメモリ削減を実現しました。2つのモデルは既存の方法において著しいランタイムオーバーヘッドを示し、FDTはオーバーヘッドのない代替設計点を提供しつつメモリ削減を実現しました。

要約(オリジナル)

Memory optimization for deep neural network (DNN) inference gains high relevance with the emergence of TinyML, which refers to the deployment of DNN inference tasks on tiny, low-power microcontrollers. Applications such as audio keyword detection or radar-based gesture recognition are heavily constrained by the limited memory on such tiny devices because DNN inference requires large intermediate run-time buffers to store activations and other intermediate data, which leads to high memory usage. In this paper, we propose a new Fused Depthwise Tiling (FDT) method for the memory optimization of DNNs, which, compared to existing tiling methods, reduces memory usage without inducing any run time overhead. FDT applies to a larger variety of network layers than existing tiling methods that focus on convolutions. It improves TinyML memory optimization significantly by reducing memory of models where this was not possible before and additionally providing alternative design points for models that show high run time overhead with existing methods. In order to identify the best tiling configuration, an end-to-end flow with a new path discovery method is proposed, which applies FDT and existing tiling methods in a fully automated way, including the scheduling of the operations and planning of the layout of buffers in memory. Out of seven evaluated models, FDT achieved significant memory reduction for two models by 76.2% and 18.1% where existing tiling methods could not be applied. Two other models showed a significant run time overhead with existing methods and FDT provided alternative design points with no overhead but reduced memory savings.

arxiv情報

著者 Rafael Stahl,Daniel Mueller-Gritschneder,Ulf Schlichtmann
発行日 2023-03-31 08:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, F.2.2 パーマリンク