MobileTL: On-device Transfer Learning with Inverted Residual Blocks

要約

タイトル: MobileTL: On-device Transfer Learning with Inverted Residual Blocks

要約:
– 論文では、オンデバイスの限られたリソースのため、エッジデバイス上でのトランスファーラーニングが挑戦的であると繰り返し述べている。
– IRB(Inverted Residual Blocks)は、畳み込み層をdepthwiseとpointwiseの畳み込みに分割することで、より多くのスタッキング層をもたらし、推論に適しているように開発されてきた。しかしながら、訓練ウエイトのために活性化のマップをメモリに保存する必要があり、リソース制限のあるエッジデバイス上でのIRBのトレーニングに適さないとの問題がある。
– この問題を解決するために、MobileTLと呼ばれるメモリと計算量の効率的なオンデバイストランスファーラーニング手法を提案する。
– MobileTLは、内部正規化層のシフトを訓練することで、Activationsのマップを後方パスに保存する必要を避ける。
– さらに、MobileTLは、Hard-SwishやReLU6などのActivationレイヤーの後方計算を符号関数として近似することで、活性化マップの代わりにバイナリマスクを保存することができる。
– MobileTLは、出力に近い数ブロックをファインチューニングすることで計算コストを削減し、FLOPsを36%減らす。また、CIFAR10において0.6%の精度低下しか生じず、同時にMobileNetV2とV3 IRBのメモリ使用量をそれぞれ46%と53%削減することを示した。

要約(オリジナル)

Transfer learning on edge is challenging due to on-device limited resources. Existing work addresses this issue by training a subset of parameters or adding model patches. Developed with inference in mind, Inverted Residual Blocks (IRBs) split a convolutional layer into depthwise and pointwise convolutions, leading to more stacking layers, e.g., convolution, normalization, and activation layers. Though they are efficient for inference, IRBs require that additional activation maps are stored in memory for training weights for convolution layers and scales for normalization layers. As a result, their high memory cost prohibits training IRBs on resource-limited edge devices, and making them unsuitable in the context of transfer learning. To address this issue, we present MobileTL, a memory and computationally efficient on-device transfer learning method for models built with IRBs. MobileTL trains the shifts for internal normalization layers to avoid storing activation maps for the backward pass. Also, MobileTL approximates the backward computation of the activation layer (e.g., Hard-Swish and ReLU6) as a signed function which enables storing a binary mask instead of activation maps for the backward pass. MobileTL fine-tunes a few top blocks (close to output) rather than propagating the gradient through the whole network to reduce the computation cost. Our method reduces memory usage by 46% and 53% for MobileNetV2 and V3 IRBs, respectively. For MobileNetV3, we observe a 36% reduction in floating-point operations (FLOPs) when fine-tuning 5 blocks, while only incurring a 0.6% accuracy reduction on CIFAR10. Extensive experiments on multiple datasets demonstrate that our method is Pareto-optimal (best accuracy under given hardware constraints) compared to prior work in transfer learning for edge devices.

arxiv情報

著者 Hung-Yueh Chiang,Natalia Frumkin,Feng Liang,Diana Marculescu
発行日 2023-04-08 16:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク