要約
事前トレーニングは、深層学習時代、特に注釈が不十分なシナリオで人気のある学習パラダイムです。
より優れた ImageNet 事前トレーニング モデルは、アーキテクチャの観点から、下流のタスクへの転送性が向上することが以前の研究によって実証されています。
ただし、この論文では、同じ事前トレーニング プロセス中に、事前トレーニングが不十分な中間エポックのモデルは、特徴抽出器 (FE) として使用すると、完全にトレーニングされたモデルよりも優れたパフォーマンスを発揮できる一方、微調整 (FT) が適切であることがわかりました。
) パフォーマンスはソースのパフォーマンスに応じてさらに向上します。
これは、ImageNet でのトップ 1 の精度とターゲット データの転送結果の間に確実な正の相関がないことを示しています。
より優れた特徴抽出器がそれに応じてより適切に微調整されないというFEとFTの間の矛盾した現象に基づいて、洞察力に富んだ説明を提供するためにソフトマックス層の前の特徴について包括的な分析を実行します。
私たちの発見は、事前トレーニング中にモデルが大きな特異値に対応するスペクトル成分を最初に学習する傾向があり、微調整する際には残差成分がより多く寄与することを示唆しています。
要約(オリジナル)
Pre-training has been a popular learning paradigm in deep learning era, especially in annotation-insufficient scenario. Better ImageNet pre-trained models have been demonstrated, from the perspective of architecture, by previous research to have better transferability to downstream tasks. However, in this paper, we found that during the same pre-training process, models at middle epochs, which is inadequately pre-trained, can outperform fully trained models when used as feature extractors (FE), while the fine-tuning (FT) performance still grows with the source performance. This reveals that there is not a solid positive correlation between top-1 accuracy on ImageNet and the transferring result on target data. Based on the contradictory phenomenon between FE and FT that better feature extractor fails to be fine-tuned better accordingly, we conduct comprehensive analyses on features before softmax layer to provide insightful explanations. Our discoveries suggest that, during pre-training, models tend to first learn spectral components corresponding to large singular values and the residual components contribute more when fine-tuning.
arxiv情報
著者 | Andong Deng,Xingjian Li,Di Hu,Tianyang Wang,Haoyi Xiong,Chengzhong Xu |
発行日 | 2023-08-14 14:24:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google