要約
通常、事前トレーニングと微調整のパラダイムは、同じタスクでモデルを最初からトレーニングするよりも下流のパフォーマンスを向上させ、機械学習の多くの分野で一般的になっています。
事前トレーニングはさまざまなタスクに有益であることが経験的に観察されていますが、この効果の理由についてはまだ明確には理解されていません。
この研究では、事前トレーニングされたビジョン トランスフォーマーと、いくつかのベンチマーク データセットおよびタスクにおける対応する微調整バージョンとの関係を調べます。
事前トレーニングされたモデルによって学習された不変性が微調整中にどの程度保持されるか忘れられるかを具体的に調査する新しい指標を紹介します。
これらのメトリクスを使用して、事前トレーニングが浅い層で伝達可能な不変性を誘発すること、および事前トレーニングされたより深い層からの不変性が微調整中に浅い層に向かって圧縮されることなど、一連の経験的発見を提示します。
これらの発見を総合すると、事前トレーニング済みモデルの成功の理由の一部と、下流タスクで微調整されたときに事前トレーニング済みモデルが受ける変化の理解に役立ちます。
要約(オリジナル)
The pretrain-finetune paradigm usually improves downstream performance over training a model from scratch on the same task, becoming commonplace across many areas of machine learning. While pretraining is empirically observed to be beneficial for a range of tasks, there is not a clear understanding yet of the reasons for this effect. In this work, we examine the relationship between pretrained vision transformers and the corresponding finetuned versions on several benchmark datasets and tasks. We present new metrics that specifically investigate the degree to which invariances learned by a pretrained model are retained or forgotten during finetuning. Using these metrics, we present a suite of empirical findings, including that pretraining induces transferable invariances in shallow layers and that invariances from deeper pretrained layers are compressed towards shallower layers during finetuning. Together, these findings contribute to understanding some of the reasons for the successes of pretrained models and the changes that a pretrained model undergoes when finetuned on a downstream task.
arxiv情報
著者 | Gabriele Merlin,Vedant Nanda,Ruchit Rawal,Mariya Toneva |
発行日 | 2023-07-12 08:35:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google