Understanding Optimal Feature Transfer via a Fine-Grained Bias-Variance Analysis

要約

転送学習パラダイムモデルでは、データが豊富な事前トレーニング段階で有用な表現(または機能)を学習し、前提条件の表現を使用して、データスカースの下流タスクのモデルパフォーマンスを改善します。
この作業では、下流のパフォーマンスを最適化することを目的として、転送学習を探ります。
任意の前提条件の機能変換を入力するようにする単純な線形モデルを導入します。
下流のリスクとその\ textit {微細粒度}バイアス分散分解の正確な漸近ティクスを導き出します。
次に、ダウンストリームタスクのアンサンブルで平均化された漸近下流のバイアスと分散を最適化する前提条件の表現を特定します。
私たちの理論的および経験的分析は、明示的なスパースを誘発する罰則や罰則がない場合でも、最適な特徴が自然にまばらであるという驚くべき現象を明らかにします。
さらに、最適な前提条件の表現がハード選択から関連する機能のソフト選択に移行する位相遷移を特定します。

要約(オリジナル)

In the transfer learning paradigm models learn useful representations (or features) during a data-rich pretraining stage, and then use the pretrained representation to improve model performance on data-scarce downstream tasks. In this work, we explore transfer learning with the goal of optimizing downstream performance. We introduce a simple linear model that takes as input an arbitrary pretrained feature transform. We derive exact asymptotics of the downstream risk and its \textit{fine-grained} bias-variance decomposition. We then identify the pretrained representation that optimizes the asymptotic downstream bias and variance averaged over an ensemble of downstream tasks. Our theoretical and empirical analysis uncovers the surprising phenomenon that the optimal featurization is naturally sparse, even in the absence of explicit sparsity-inducing priors or penalties. Additionally, we identify a phase transition where the optimal pretrained representation shifts from hard selection to soft selection of relevant features.

arxiv情報

著者 Yufan Li,Subhabrata Sen,Ben Adlam
発行日 2025-04-11 15:49:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク