On the Generalization Ability of Unsupervised Pretraining

要約

教師なし学習の最近の進歩により、教師なし事前トレーニングとそれに続く微調整によってモデルの一般化が改善できることが示されています。
ただし、ラベルなしのデータセットで学習された表現関数が、微調整されたモデルの一般化にどのような影響を与えるかについての厳密な理解は不足しています。
既存の理論研究では、事前トレーニングおよび微調整段階における分布とタスクの不均一性が適切に説明されていません。
このギャップを埋めるために、この論文では、教師なし事前トレーニング中に取得した知識のその後の微調整フェーズへの伝達可能性に影響を与え、最終的には下流タスクにおける微調整モデルの汎化能力に影響を与える重要な要因を明らかにする新しい理論的フレームワークを紹介します。

理論的フレームワークを適用して、ディープ ニューラル ネットワークを使用したコンテキスト エンコーダーの事前トレーニングと、ディープ トランスフォーマーを使用したマスク オートエンコーダーの事前トレーニングの 2 つの異なるシナリオの一般化限界を分析し、その後バイナリ分類タスクで微調整します。
最後に、私たちの発見に触発されて、事前トレーニング中に微調整されたモデルの一般化をさらに強化する新しい正則化方法を提案します。
全体として、私たちの結果は教師なし事前トレーニングと微調整パラダイムのより良い理解に貢献し、より効果的な事前トレーニング アルゴリズムの設計に光を当てることができます。

要約(オリジナル)

Recent advances in unsupervised learning have shown that unsupervised pre-training, followed by fine-tuning, can improve model generalization. However, a rigorous understanding of how the representation function learned on an unlabeled dataset affects the generalization of the fine-tuned model is lacking. Existing theoretical research does not adequately account for the heterogeneity of the distribution and tasks in pre-training and fine-tuning stage. To bridge this gap, this paper introduces a novel theoretical framework that illuminates the critical factor influencing the transferability of knowledge acquired during unsupervised pre-training to the subsequent fine-tuning phase, ultimately affecting the generalization capabilities of the fine-tuned model on downstream tasks. We apply our theoretical framework to analyze generalization bound of two distinct scenarios: Context Encoder pre-training with deep neural networks and Masked Autoencoder pre-training with deep transformers, followed by fine-tuning on a binary classification task. Finally, inspired by our findings, we propose a novel regularization method during pre-training to further enhances the generalization of fine-tuned model. Overall, our results contribute to a better understanding of unsupervised pre-training and fine-tuning paradigm, and can shed light on the design of more effective pre-training algorithms.

arxiv情報

著者 Yuyang Deng,Junyuan Hong,Jiayu Zhou,Mehrdad Mahdavi
発行日 2024-03-11 16:23:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク