DTMM: Deploying TinyML Models on Extremely Weak IoT Devices with Pruning

要約

DTMM は、マイクロコントローラー ユニット (MCU) などの脆弱な IoT デバイス上で機械学習モデルを効率的に展開および実行するために設計されたライブラリです。
DTMM を設計する動機は、ユビキタス インテリジェンスを実現するために機械学習の範囲を多くのローエンド IoT デバイスに拡張することを模索する小型機械学習 (TinyML) という新興分​​野から来ています。
組み込みデバイスの機能が弱いため、デプロイする前に十分な重みをプルーニングしてモデルを圧縮する必要があります。
枝刈りは多くのコンピューティング プラットフォームで広範に研究されてきましたが、枝刈り手法に関する 2 つの重要な問題が MCU ではさらに悪化します。モデルは、精度を大幅に損なうことなく深く圧縮する必要があること、および枝刈り後に効率的に実行する必要があることです。
現在のソリューションは、これらの目的のいずれか 1 つだけを達成しており、両方を達成することはできません。
この論文では、プルーニングされたモデルが MCU 上での効率的な展開と実行に大きな可能性を秘めていることを発見しました。
したがって、プルーニングされたモデルの効率的なデプロイと実行のためのギャップを埋めるために、プルーニング ユニットの選択、実行前のプルーニングの最適化、ランタイムの高速化、および実行後の低コストのストレージを備えた DTMM を提案します。
実際の展開のために商用 ML フレームワークに統合することができ、プロトタイプ システムが開発されています。
さまざまなモデルでの広範な実験により、最先端の方法と比較して有望な利益が得られることが示されています。

要約(オリジナル)

DTMM is a library designed for efficient deployment and execution of machine learning models on weak IoT devices such as microcontroller units (MCUs). The motivation for designing DTMM comes from the emerging field of tiny machine learning (TinyML), which explores extending the reach of machine learning to many low-end IoT devices to achieve ubiquitous intelligence. Due to the weak capability of embedded devices, it is necessary to compress models by pruning enough weights before deploying. Although pruning has been studied extensively on many computing platforms, two key issues with pruning methods are exacerbated on MCUs: models need to be deeply compressed without significantly compromising accuracy, and they should perform efficiently after pruning. Current solutions only achieve one of these objectives, but not both. In this paper, we find that pruned models have great potential for efficient deployment and execution on MCUs. Therefore, we propose DTMM with pruning unit selection, pre-execution pruning optimizations, runtime acceleration, and post-execution low-cost storage to fill the gap for efficient deployment and execution of pruned models. It can be integrated into commercial ML frameworks for practical deployment, and a prototype system has been developed. Extensive experiments on various models show promising gains compared to state-of-the-art methods.

arxiv情報

著者 Lixiang Han,Zhen Xiao,Zhenjiang Li
発行日 2024-01-17 09:01:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク