Joint or Disjoint: Mixing Training Regimes for Early-Exit Models

要約

早期終了は、ディープ ニューラル ネットワークに統合された重要な効率メカニズムであり、すべての層を介して処理する前にネットワークの順方向パスを終了できるようにします。
高い信頼度に達した複雑さの低い入力に対して推論プロセスを早期に停止できるようにすることで、早期に終了することで必要な計算量が大幅に削減されます。
早期終了メソッドでは、トレーニング可能な内部分類子が追加され、トレーニング プロセスがより複雑になります。
ただし、早期終了方法のトレーニングのアプローチに関する一貫した検証はなく、そのようなモデルをトレーニングする統一されたスキームもありません。
初期の出口メソッドのほとんどは、バックボーン ネットワークと出口ヘッドを同時にトレーニングするか、出口ヘッドを個別にトレーニングするトレーニング戦略を採用しています。
私たちは、最初にバックボーンを単独でトレーニングし、その後バックボーンとエグジットヘッドの両方を一緒にトレーニングするフェーズが続くトレーニングアプローチを提案します。
したがって、私たちは早期離脱トレーニング戦略を 3 つの異なるカテゴリーに整理し、それらのパフォーマンスと効率性を検証することを提唱します。
このベンチマークでは、早期終了トレーニング体制の理論的分析と実証的分析の両方を実行します。
私たちは、情報の流れ、損失状況、アクティベーションの数値ランクの観点からこの方法を研究し、さまざまなアーキテクチャやデータセットに対するレジームの適合性を評価します。

要約(オリジナル)

Early exits are an important efficiency mechanism integrated into deep neural networks that allows for the termination of the network’s forward pass before processing through all its layers. By allowing early halting of the inference process for less complex inputs that reached high confidence, early exits significantly reduce the amount of computation required. Early exit methods add trainable internal classifiers which leads to more intricacy in the training process. However, there is no consistent verification of the approaches of training of early exit methods, and no unified scheme of training such models. Most early exit methods employ a training strategy that either simultaneously trains the backbone network and the exit heads or trains the exit heads separately. We propose a training approach where the backbone is initially trained on its own, followed by a phase where both the backbone and the exit heads are trained together. Thus, we advocate for organizing early-exit training strategies into three distinct categories, and then validate them for their performance and efficiency. In this benchmark, we perform both theoretical and empirical analysis of early-exit training regimes. We study the methods in terms of information flow, loss landscape and numerical rank of activations and gauge the suitability of regimes for various architectures and datasets.

arxiv情報

著者 Bartłomiej Krzepkowski,Monika Michaluk,Franciszek Szarwacki,Piotr Kubaty,Jary Pomponi,Tomasz Trzciński,Bartosz Wójcik,Kamil Adamczewski
発行日 2024-07-19 13:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク