要約
AIは、大規模な言語モデルからマイクロコントローラー(MCU)で実行されている小さなモデルに及びます。
非常にメモリ効率の高いモデルアーキテクチャは、MCUの小さなメモリ予算、たとえば128kbのRAMに収まるように決定的です。
ただし、リアルタイムの制約に適合するには、推論のレイテンシが小さくしておく必要があります。
これに取り組むためのアプローチは、ニューラルネットワークレイヤー間のデータフローを最適化することを目的としたパッチベースの融合です。
このホワイトペーパーでは、方向の高い環境グラフとして表される融合溶液スペースを歩くことにより、畳み込みニューラルネットワーク(CNNS)の最適な融合設定を効率的に見つける新しい手法であるMSF-CNNを紹介します。
MCUのCNN融合に関する以前の研究と比較して、MSF-CNNはより広いソリューションセットを特定します。
さまざまなマイクロコントローラーで実行されているMSF-CNNの実装を公開しました(ARM Cortex-M、RISC-V、ESP32)。
MSF-CNNは、以前のART(MCUNETV2およびStreamNet)と比較して50%少ないRAMを使用して推論を達成できることを示しています。
したがって、MSF-CNNがシステム設計者に追加の柔軟性をどのように提供するかを示します。
要約(オリジナル)
AI spans from large language models to tiny models running on microcontrollers (MCUs). Extremely memory-efficient model architectures are decisive to fit within an MCU’s tiny memory budget e.g., 128kB of RAM. However, inference latency must remain small to fit real-time constraints. An approach to tackle this is patch-based fusion, which aims to optimize data flows across neural network layers. In this paper, we introduce msf-CNN, a novel technique that efficiently finds optimal fusion settings for convolutional neural networks (CNNs) by walking through the fusion solution space represented as a directed acyclic graph. Compared to previous work on CNN fusion for MCUs, msf-CNN identifies a wider set of solutions. We published an implementation of msf-CNN running on various microcontrollers (ARM Cortex-M, RISC-V, ESP32). We show that msf-CNN can achieve inference using 50% less RAM compared to the prior art (MCUNetV2 and StreamNet). We thus demonstrate how msf-CNN offers additional flexibility for system designers.
arxiv情報
著者 | Zhaolan Huang,Emmanuel Baccelli |
発行日 | 2025-05-16 17:47:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google