要約
ディープ ニューラル ネットワークの学習ダイナミクスはよく理解されていません。
情報ボトルネック (IB) 理論では、フィッティング段階と圧縮段階を別々に行うことが宣言されています。
しかし、それ以来、それらは激しく議論されてきました。
入力のレイヤーの再構成能力と、トレーニング中のパラメーターの変化に基づく予測パフォーマンスを調査することで、学習ダイナミクスを包括的に分析します。
我々は、ResNet や VGG などの一般的なデータセットとアーキテクチャを使用して、(i) ほぼ一定の再構築損失、(ii) 減少、および (iii) 増加の 3 つの段階が存在することを経験的に示します。
また、経験的に根拠のあるデータ モデルを導出し、単層ネットワークのフェーズの存在を証明します。
技術的には、私たちのアプローチは古典的な複雑さの分析を活用しています。
IB とは異なり、中間層と入力の情報を関連付ける情報理論的尺度ではなく、再構築損失の測定に依存しています。
私たちの研究は、転移学習の新しいベスト プラクティスを示唆しています。分類器の事前トレーニングは、そのパフォーマンスが最適になるかなり前に停止する必要があることを経験的に示しています。
要約(オリジナル)
The learning dynamics of deep neural networks are not well understood. The information bottleneck (IB) theory proclaimed separate fitting and compression phases. But they have since been heavily debated. We comprehensively analyze the learning dynamics by investigating a layer’s reconstruction ability of the input and prediction performance based on the evolution of parameters during training. We empirically show the existence of three phases using common datasets and architectures such as ResNet and VGG: (i) near constant reconstruction loss, (ii) decrease, and (iii) increase. We also derive an empirically grounded data model and prove the existence of phases for single-layer networks. Technically, our approach leverages classical complexity analysis. It differs from IB by relying on measuring reconstruction loss rather than information theoretic measures to relate information of intermediate layers and inputs. Our work implies a new best practice for transfer learning: We show empirically that the pre-training of a classifier should stop well before its performance is optimal.
arxiv情報
著者 | Johannes Schneider,Mohit Prabhushankar |
発行日 | 2023-12-14 14:32:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google