DεpS: Delayed ε-Shrinking for Faster Once-For-All Training

要約

CNN は、さまざまなハードウェア、動的環境、低電力組み込みデバイスにわたって導入されることが増えています。
これにより、このようなさまざまな展開上の制約のもとで精度を最大化することを目的とした CNN アーキテクチャの設計とトレーニングが行われるようになりました。
導入シナリオの数が増加するにつれて、特殊な CNN を設計およびトレーニングするためのスケーラブルなソリューションを見つける必要があります。
ワンスフォーオール トレーニングは、一定のトレーニング コストで一度に多くのモデル (サブネット) を共同トレーニングし、後で特殊な CNN を見つけるスケーラブルなアプローチとして登場しました。
スケーラビリティは、完全なモデルをトレーニングし、同時にモデルの重みを共有するより小さなサブネットに縮小することによって実現されます (重み共有縮小)。
ただし、既存の 1 回限りのトレーニング アプローチでは、1200 GPU 時間に達する膨大なトレーニング コストが発生します。
これは、モデル全体を縮小するプロセスの開始が早すぎるか遅すぎるためであると私たちは主張します。
したがって、部分的にトレーニングされたとき (~50%)、モデル全体を縮小するプロセスを開始する遅延 $\epsilon$-Shrinking (D$\epsilon$pS) を提案します。これにより、トレーニング コストの改善とインプレースの知識の向上につながります。
小型モデルへの蒸留。
提案されたアプローチは、サブネットの学習率を段階的に動的に調整する新しいヒューリスティック (E) からも構成されており、より大きなサブネットからより小さなサブネットへの重み共有知識の蒸留も改善されます。
その結果、DEpS は、CIFAR10/100、ImageNet-100、ImageNet-1k などのさまざまなデータセットにわたる最先端のワンフォーオール トレーニング手法よりも精度とコストの点で優れています。
ImageNet-1k top1 の 1.83% 高い精度、または FLOP の 1.3 倍の削減とトレーニング コスト (GPU*時間) の 2.5 倍の低下で同じ精度を達成します。

要約(オリジナル)

CNNs are increasingly deployed across different hardware, dynamic environments, and low-power embedded devices. This has led to the design and training of CNN architectures with the goal of maximizing accuracy subject to such variable deployment constraints. As the number of deployment scenarios grows, there is a need to find scalable solutions to design and train specialized CNNs. Once-for-all training has emerged as a scalable approach that jointly co-trains many models (subnets) at once with a constant training cost and finds specialized CNNs later. The scalability is achieved by training the full model and simultaneously reducing it to smaller subnets that share model weights (weight-shared shrinking). However, existing once-for-all training approaches incur huge training costs reaching 1200 GPU hours. We argue this is because they either start the process of shrinking the full model too early or too late. Hence, we propose Delayed $\epsilon$-Shrinking (D$\epsilon$pS) that starts the process of shrinking the full model when it is partially trained (~50%) which leads to training cost improvement and better in-place knowledge distillation to smaller models. The proposed approach also consists of novel heuristics that dynamically adjust subnet learning rates incrementally (E), leading to improved weight-shared knowledge distillation from larger to smaller subnets as well. As a result, DEpS outperforms state-of-the-art once-for-all training techniques across different datasets including CIFAR10/100, ImageNet-100, and ImageNet-1k on accuracy and cost. It achieves 1.83% higher ImageNet-1k top1 accuracy or the same accuracy with 1.3x reduction in FLOPs and 2.5x drop in training cost (GPU*hrs)

arxiv情報

著者 Aditya Annavajjala,Alind Khare,Animesh Agrawal,Igor Fedorov,Hugo Latapie,Myungjin Lee,Alexey Tumanov
発行日 2024-07-08 17:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク