要約
大規模な事前トレーニング済みニューラル ネットワークの出現により、そのような「基礎」モデルをデータが制限された下流タスクに適応させる方法が必要になりました。
ターゲット タスクがソース タスクによく似ている場合、微調整、優先度の最適化、および転移学習はすべて、これらの目的にうまく採用されていますが、「タスクの類似性」についての正確な理論的理解はまだ不足しています。
従来の通念では、$\phi$-divergences や積分確率メトリクスなど、ソース分布とターゲット分布の間の類似性の単純な尺度が転送の成功を直接予測できると考えられていますが、一般的にこれはそうではないという驚くべき事実を私たちは証明しています。
場合。
代わりに、転移学習に関して特徴中心の視点を採用し、ターゲット タスクが事前トレーニング済みモデルの特徴空間で適切に表現されている場合、転移学習がゼロからのトレーニングよりも優れていることを示す多くの理論的結果を確立します。
私たちは、転移学習の最小モデルとして深層線形ネットワークを研究します。このモデルでは、ターゲット データセット サイズと特徴空間の重なりの関数として転移性フェーズ ダイアグラムを分析的に特徴付けることができます。
このモデルでは、ソース タスクとターゲット タスクの間の特徴空間のオーバーラップが十分に強い場合、線形転送と微調整の両方によって、特にデータ制限が低い場合にパフォーマンスが向上することが厳密に確立されています。
これらの結果は、深層線形ネットワークにおける特徴学習ダイナミクスの新たな理解に基づいており、線形の場合について導いた厳密な結果が非線形ネットワークにも当てはまることを数値的に示しています。
要約(オリジナル)
With the emergence of large-scale pre-trained neural networks, methods to adapt such ‘foundation’ models to data-limited downstream tasks have become a necessity. Fine-tuning, preference optimization, and transfer learning have all been successfully employed for these purposes when the target task closely resembles the source task, but a precise theoretical understanding of ‘task similarity’ is still lacking. While conventional wisdom suggests that simple measures of similarity between source and target distributions, such as $\phi$-divergences or integral probability metrics, can directly predict the success of transfer, we prove the surprising fact that, in general, this is not the case. We adopt, instead, a feature-centric viewpoint on transfer learning and establish a number of theoretical results that demonstrate that when the target task is well represented by the feature space of the pre-trained model, transfer learning outperforms training from scratch. We study deep linear networks as a minimal model of transfer learning in which we can analytically characterize the transferability phase diagram as a function of the target dataset size and the feature space overlap. For this model, we establish rigorously that when the feature space overlap between the source and target tasks is sufficiently strong, both linear transfer and fine-tuning improve performance, especially in the low data limit. These results build on an emerging understanding of feature learning dynamics in deep linear networks, and we demonstrate numerically that the rigorous results we derive for the linear case also apply to nonlinear networks.
arxiv情報
著者 | Javan Tahir,Surya Ganguli,Grant M. Rotskoff |
発行日 | 2024-10-10 17:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google