Implicit regularization of multi-task learning and finetuning in overparameterized neural networks

要約

この研究では、複数のタスクを同時学習 (マルチタスク学習、MTL) または順次学習 (事前トレーニングとその後の微調整、PT+FT) で学習することによって生じる帰納的バイアスを調査します。
勾配降下法で訓練された 2 層対角線形ネットワークの簡略化された設定で、以前の理論結果を適用して、MTL と PT+FT に関連する新しい暗黙的な正則化ペナルティを説明します。どちらもタスク間の特徴共有と、学習されたタスク固有のスパース性を促進します。
特徴。
特に、これらの結果は、微調整中、ネットワークがカーネル (または「レイジー」) レジームと、以前の研究で特定された機能学習 (「リッチ」) レジームのハイブリッドで動作することを示唆しています。
さらに、PT + FT が、どちらのレジームでも捕捉されない新しい「ネストされた特徴選択」動作を示し、事前トレーニング中に学習された特徴のまばらなサブセットを抽出するようにバイアスされることを示します。
ReLU ネットワークでは、これらの定性的な動作をすべて経験的に再現し、特に線形理論によって予測されたスパース性バイアスの類似物が非線形の場合にも当てはまることを検証します。
私たちの発見は、画像分類タスクでトレーニングされた深層アーキテクチャに定性的に当てはまり、ネストされた特徴選択方式の特徴付けは、経験的にパフォーマンスが向上することがわかった PT+FT への変更の動機となっています。
また、PT+FT (MTL ではない) は補助タスクに必要な機能と相関する (しかし異なる) 機能を学習する傾向にあるのに対し、MTL は両方のタスクで同一の機能を使用することに偏っていることも観察されています。
微調整サンプルの数の関数としてのパフォーマンスのトレードオフ。
私たちの結果は、補助タスク学習の影響を明らかにし、それをより効果的に活用する方法を示唆しています。

要約(オリジナル)

In this work, we investigate the inductive biases that result from learning multiple tasks, either simultaneously (multi-task learning, MTL) or sequentially (pretraining and subsequent finetuning, PT+FT). In the simplified setting of two-layer diagonal linear networks trained with gradient descent, we apply prior theoretical results to describe novel implicit regularization penalties associated with MTL and PT+FT, both of which incentivize feature sharing between tasks and sparsity in learned task-specific features. Notably, these results imply that during finetuning, networks operate in a hybrid of the kernel (or ‘lazy’) regime and the feature learning (‘rich’) regime identified in prior work. Moreover, we show that PT+FT can exhibit a novel ‘nested feature selection’ behavior not captured by either regime, which biases it to extract a sparse subset of the features learned during pretraining. In ReLU networks, we reproduce all of these qualitative behaviors empirically, in particular verifying that analogues of the sparsity biases predicted by the linear theory hold in the nonlinear case. Our findings hold qualitatively for a deep architecture trained on image classification tasks, and our characterization of the nested feature selection regime motivates a modification to PT+FT that we find empirically improves performance. We also observe that PT+FT (but not MTL) is biased to learn features that are correlated with (but distinct from) those needed for the auxiliary task, while MTL is biased toward using identical features for both tasks, which can lead to a tradeoff in performance as a function of the number of finetuning samples. Our results shed light on the impact of auxiliary task learning and suggest ways to leverage it more effectively.

arxiv情報

著者 Jack W. Lindsey,Samuel Lippl
発行日 2024-03-07 17:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク