What Variables Affect Out-of-Distribution Generalization in Pretrained Models?

要約

事前トレーニングされたディープ ニューラル ネットワーク (DNN) によって生成された埋め込みは広く使用されています。
ただし、下流のタスクに対するその有効性は大きく異なる可能性があります。
私たちは、中間神経崩壊と密接に関連するトンネル効果仮説のレンズを通して、事前訓練された DNN 埋め込みの転送可能性と分布外 (OOD) 一般化に影響を与える要因を研究します。
この仮説は、より深い DNN 層が表現を圧縮し、OOD の一般化を妨げることを示唆しています。
以前の研究とは対照的に、私たちの実験は、これが普遍的な現象ではないことを示しています。
DNN アーキテクチャ、トレーニング データ、画像解像度、拡張が転送可能性に与える影響を包括的に調査します。
多くのクラスを含む高解像度データセットを使用してトレーニングすると、表現圧縮が大幅に軽減され、転送可能性が向上することがわかりました。
私たちの結果は、おもちゃのデータセットからの発見をより広い文脈に一般化する危険性を強調しています。

要約(オリジナル)

Embeddings produced by pre-trained deep neural networks (DNNs) are widely used; however, their efficacy for downstream tasks can vary widely. We study the factors influencing transferability and out-of-distribution (OOD) generalization of pre-trained DNN embeddings through the lens of the tunnel effect hypothesis, which is closely related to intermediate neural collapse. This hypothesis suggests that deeper DNN layers compress representations and hinder OOD generalization. Contrary to earlier work, our experiments show this is not a universal phenomenon. We comprehensively investigate the impact of DNN architecture, training data, image resolution, and augmentations on transferability. We identify that training with high-resolution datasets containing many classes greatly reduces representation compression and improves transferability. Our results emphasize the danger of generalizing findings from toy datasets to broader contexts.

arxiv情報

著者 Md Yousuf Harun,Kyungbok Lee,Jhair Gallardo,Giri Krishnan,Christopher Kanan
発行日 2024-10-25 14:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク