Frozen Overparameterization: A Double Descent Perspective on Transfer Learning of Deep Neural Networks

要約

ディープニューラルネットワーク(DNN)の転移学習の一般化動作を研究します。
汎化パフォーマンスに対する転移学習設定の微妙な影響を説明するために、トレーニング データの補間 (つまり、トレーニング エラーがほぼゼロ) と二重降下現象を特徴とするオーバーパラメータ化の観点を採用します。
転移学習の汎化動作が、ソース タスクとターゲット タスクのデータセット サイズ、ターゲット DNN トレーニングでフリーズされたままの転送層の数、ソース タスクとターゲット タスク間の類似性にどのような影響を受けるかを研究します。
ターゲットのトレーニング データセットが十分に大きい場合、ターゲット DNN トレーニング中のテスト誤差の進化には、より重大な二重降下効果があることを示します。
さらに、ソース トレーニング データセットが大きくなると、ターゲット DNN トレーニングが遅くなる可能性があります。
さらに、フリーズ層の数によって転移学習が事実上過小パラメータ化されているか過大パラメータ化されているかが決まり、その結果、学習の相対的な成功または失敗を決定するフリーズ化二重降下現象が誘発される可能性があることを実証します。
また、二重降下現象により、関連性の低いソース タスクからの転送が、より関連性の高いソース タスクからの転送よりも優れたものになる可能性があることも示します。
ResNet、DenseNet、およびビジョン トランスフォーマー (ViT) アーキテクチャを使用した画像分類実験を使用して結果を確立します。

要約(オリジナル)

We study the generalization behavior of transfer learning of deep neural networks (DNNs). We adopt the overparameterization perspective — featuring interpolation of the training data (i.e., approximately zero train error) and the double descent phenomenon — to explain the delicate effect of the transfer learning setting on generalization performance. We study how the generalization behavior of transfer learning is affected by the dataset size in the source and target tasks, the number of transferred layers that are kept frozen in the target DNN training, and the similarity between the source and target tasks. We show that the test error evolution during the target DNN training has a more significant double descent effect when the target training dataset is sufficiently large. In addition, a larger source training dataset can yield a slower target DNN training. Moreover, we demonstrate that the number of frozen layers can determine whether the transfer learning is effectively underparameterized or overparameterized and, in turn, this may induce a freezing-wise double descent phenomenon that determines the relative success or failure of learning. Also, we show that the double descent phenomenon may make a transfer from a less related source task better than a transfer from a more related source task. We establish our results using image classification experiments with the ResNet, DenseNet and the vision transformer (ViT) architectures.

arxiv情報

著者 Yehuda Dar,Lorenzo Luzi,Richard G. Baraniuk
発行日 2023-06-12 17:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク