要約
コンピューター ビジョンと言語モデルにおける最近の目覚ましい進歩の多くは、大規模な基礎モデルの事前トレーニングによる転移学習の成功に起因すると考えられます。
しかし、この経験的な成功を説明する理論的枠組みは不完全であり、依然として活発な研究領域です。
最近、損失曲面の平坦性と神経崩壊が、事前トレーニングの根底にある暗黙のバイアスに光を当てる有用な事前トレーニング指標として浮上しています。
この論文では、これら 2 つの概念を関連付ける基本的なメカニズムとして、モデルの学習された表現の幾何学的複雑さを調査します。
私たちは実験と理論を通じて、事前学習されたネットワークの幾何学的複雑さに影響を与えるメカニズムが神経崩壊にも影響を与えることを示します。
さらに、幾何学的複雑さのこの効果が新しいクラスのニューラル崩壊にもどのように一般化するのかを示し、これにより、下流のタスク、特に数ショット設定でのパフォーマンスの向上が促進されます。
要約(オリジナル)
Many of the recent remarkable advances in computer vision and language models can be attributed to the success of transfer learning via the pre-training of large foundation models. However, a theoretical framework which explains this empirical success is incomplete and remains an active area of research. Flatness of the loss surface and neural collapse have recently emerged as useful pre-training metrics which shed light on the implicit biases underlying pre-training. In this paper, we explore the geometric complexity of a model’s learned representations as a fundamental mechanism that relates these two concepts. We show through experiments and theory that mechanisms which affect the geometric complexity of the pre-trained network also influence the neural collapse. Furthermore, we show how this effect of the geometric complexity generalizes to the neural collapse of new classes as well, thus encouraging better performance on downstream tasks, particularly in the few-shot setting.
arxiv情報
著者 | Michael Munn,Benoit Dherin,Javier Gonzalvo |
発行日 | 2024-05-24 16:52:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google