要約
この論文では、ネットワークとスケジューリングの協調最適化を通じて小型マイクロコントローラー ユニット (MCU) 上で BERT のような言語モデルを実現する MCUBERT を提案します。
埋め込みテーブルが、小さな BERT モデルの主要なストレージ ボトルネックの一因となっていることがわかります。
したがって、ネットワークレベルで、埋め込み圧縮のためのクラスター化された低ランク近似に基づいた、MCU認識の2段階ニューラルアーキテクチャ検索アルゴリズムを提案します。
推論メモリ要件を軽減するために、私たちはさらに、MCU に適したきめの細かい新しいスケジューリング戦略を提案します。
慎重な計算タイリングと再順序付け、およびカーネル設計を通じて、レイテンシーや精度を損なうことなく、MCU でサポートされる入力シーケンスの長さを大幅に増加させます。
MCUBERT は、BERT-tiny と BERT-mini のパラメータ サイズをそれぞれ 5.7$\times$ と 3.0$\times$ 削減し、実行メモリを 3.5$\times$ と 4.3$\times$ 削減します。
MCUBERT は、1.5 倍の遅延削減も達成します。
MCUBERT によって初めて、コモディティ MCU 上で軽量の BERT モデルが可能になり、256 KB 未満のメモリで 512 を超えるトークンを処理できるようになります。
要約(オリジナル)
In this paper, we propose MCUBERT to enable language models like BERT on tiny microcontroller units (MCUs) through network and scheduling co-optimization. We observe the embedding table contributes to the major storage bottleneck for tiny BERT models. Hence, at the network level, we propose an MCU-aware two-stage neural architecture search algorithm based on clustered low-rank approximation for embedding compression. To reduce the inference memory requirements, we further propose a novel fine-grained MCU-friendly scheduling strategy. Through careful computation tiling and re-ordering as well as kernel design, we drastically increase the input sequence lengths supported on MCUs without any latency or accuracy penalty. MCUBERT reduces the parameter size of BERT-tiny and BERT-mini by 5.7$\times$ and 3.0$\times$ and the execution memory by 3.5$\times$ and 4.3$\times$, respectively. MCUBERT also achieves 1.5$\times$ latency reduction. For the first time, MCUBERT enables lightweight BERT models on commodity MCUs and processing more than 512 tokens with less than 256KB of memory.
arxiv情報
著者 | Zebin Yang,Renze Chen,Taiqiang Wu,Ngai Wong,Yun Liang,Runsheng Wang,Ru Huang,Meng Li |
発行日 | 2024-10-23 15:27:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google