Principled and Efficient Transfer Learning of Deep Models via Neural Collapse

要約

モデルサイズが増大し、ラベル付き学習データの入手が困難になる中、転移学習は多くの科学技術分野でますます一般的なアプローチになっている。本研究では、分類問題において、学習されたディープネットワークの最終層の特徴と分類器が満たす、神経崩壊(NC)と呼ばれる興味深い現象を通して、転移学習の謎に迫るものである。(i)クラス内の特徴量の変動がゼロになり、(ii)クラス間の特徴量の平均が最大かつ均等に分離される。NCのレンズを通して、我々は伝達学習について以下のような知見を得た。(i)モデルを事前学習する際、クラス内変動が(ある程度)潰れないようにすることで、入力データの固有構造がより保たれ、モデルの移植性が高まる。(ii)下流のタスクでモデルを微調整する際、下流のデータでよりNCの高い特徴を得れば、与えられたタスクでのテスト精度がより高くなる。上記の結果は、モデルの事前学習において広く用いられている多くのヒューリスティック手法(例:データ拡張、プロジェクションヘッド、自己教師付き学習)を解明するだけでなく、下流タスクに対するより効率的かつ原理的な微調整方法を導き出し、豊富な実験結果を通じて実証するものである。

要約(オリジナル)

With the ever-growing model size and the limited availability of labeled training data, transfer learning has become an increasingly popular approach in many science and engineering domains. For classification problems, this work delves into the mystery of transfer learning through an intriguing phenomenon termed neural collapse (NC), where the last-layer features and classifiers of learned deep networks satisfy: (i) the within-class variability of the features collapses to zero, and (ii) the between-class feature means are maximally and equally separated. Through the lens of NC, our findings for transfer learning are the following: (i) when pre-training models, preventing intra-class variability collapse (to a certain extent) better preserves the intrinsic structures of the input data, so that it leads to better model transferability; (ii) when fine-tuning models on downstream tasks, obtaining features with more NC on downstream data results in better test accuracy on the given task. The above results not only demystify many widely used heuristics in model pre-training (e.g., data augmentation, projection head, self-supervised learning), but also leads to more efficient and principled fine-tuning method on downstream tasks that we demonstrate through extensive experimental results.

arxiv情報

著者 Xiao Li,Sheng Liu,Jinxin Zhou,Xinyu Lu,Carlos Fernandez-Granda,Zhihui Zhu,Qing Qu
発行日 2023-01-04 07:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV, stat.ML パーマリンク