The Common Intuition to Transfer Learning Can Win or Lose: Case Studies for Linear Regression

要約

データサンプルよりも多くの学習パラメータが存在する過剰パラメータ化設定を含む、ソースからターゲットへの基本的な転移学習プロセスの線形回帰タスクを研究します。
ターゲット タスクの学習は、そのトレーニング データとソース タスク用に以前に計算されたパラメーターを使用することによって処理されます。
ターゲット タスクへの転移学習アプローチを、学習対象のターゲット パラメーターと学習済みのソース パラメーター間の距離の正則化による線形回帰最適化として定義します。
私たちは、転移学習アプローチの汎化パフォーマンスを分析的に特徴付け、線形回帰に対する最小 L2 ノルム解の二重降下現象における汎化誤差のピークを解決する能力を実証します。
さらに、十分に関連したタスクの場合、真のパラメーター ベクトルが等方性ガウス事前分布に従う場合でも、最適に調整された転移学習アプローチが最適に調整されたリッジ回帰法よりも優れたパフォーマンスを発揮できることを示します。
つまり、転移学習が独立したターゲット タスクの最小平均二乗誤差 (MMSE) 解を上回ることができることを示します。
私たちの結果は、解空間をターゲットタスクまで拡張する転移学習の能力と、それによって改善された MMSE ソリューションを実現できることを強調しています。
転移学習設定に対する線形 MMSE ソリューションを定式化し、転移学習に対する一般的な設計哲学との主な違いを指摘します。

要約(オリジナル)

We study a fundamental transfer learning process from source to target linear regression tasks, including overparameterized settings where there are more learned parameters than data samples. The target task learning is addressed by using its training data together with the parameters previously computed for the source task. We define a transfer learning approach to the target task as a linear regression optimization with a regularization on the distance between the to-be-learned target parameters and the already-learned source parameters. We analytically characterize the generalization performance of our transfer learning approach and demonstrate its ability to resolve the peak in generalization errors in double descent phenomena of the minimum L2-norm solution to linear regression. Moreover, we show that for sufficiently related tasks, the optimally tuned transfer learning approach can outperform the optimally tuned ridge regression method, even when the true parameter vector conforms to an isotropic Gaussian prior distribution. Namely, we demonstrate that transfer learning can beat the minimum mean square error (MMSE) solution of the independent target task. Our results emphasize the ability of transfer learning to extend the solution space to the target task and, by that, to have an improved MMSE solution. We formulate the linear MMSE solution to our transfer learning setting and point out its key differences from the common design philosophy to transfer learning.

arxiv情報

著者 Yehuda Dar,Daniel LeJeune,Richard G. Baraniuk
発行日 2023-08-23 16:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク