Diffused Redundancy in Pre-trained Representations

要約

大規模なデータセットでニューラル ネットワークを事前トレーニングすることによって学習された表現は、さまざまな下流タスクを実行するためにますますうまく使用されています。
この研究では、そのような事前トレーニングされた表現で特徴がどのようにエンコードされるかを詳しく見ていきます。
特定の層で学習された表現は、ある程度の拡散冗長性を示すことがわかりました。つまり、しきい値サイズより大きい層でランダムに選択されたニューロンのサブセットは、完全な層と大きな類似性を共有し、同様に実行できることがわかります。
さまざまな下流タスクのレイヤー全体として。
たとえば、ImageNet1k で事前トレーニングされた ResNet50 の最後から 2 番目の層からランダムに選択されたニューロンの $20\%$ でトレーニングされた線形プローブは、下流 CIFAR10 のニューロンの全層でトレーニングされた線形プローブの $5\%$ 以内の精度を達成します。
分類。
ImageNet1k と ImageNet21k の両方で事前トレーニングされたさまざまなニューラル アーキテクチャ (CNN やトランスフォーマーを含む) で実験を実施し、VTAB ベンチマークから取得したさまざまなダウンストリーム タスクを評価します。
事前トレーニング中に使用される損失とデータセットが拡散冗長性の程度を大きく左右し、必要なニューロンの「臨界量」が下流のタスクに依存することが多いことがわかり、タスク固有の冗長性とパフォーマンスのパレートフロンティアが存在することが示唆されています。
私たちの調査結果は、事前トレーニングされたディープ ニューラル ネットワークによって学習された表現の性質を明らかにし、多くの下流タスクを実行するために層全体が必要ない可能性があることを示唆しています。
私たちは、この冗長性を利用して下流タスクの効率的な一般化を達成する可能性を調査し、また、起こり得る特定の予期せぬ結果についても注意を喚起します。
コードは \url{https://github.com/nvedant07/diffused-redundancy} で入手できます。

要約(オリジナル)

Representations learned by pre-training a neural network on a large dataset are increasingly used successfully to perform a variety of downstream tasks. In this work, we take a closer look at how features are encoded in such pre-trained representations. We find that learned representations in a given layer exhibit a degree of diffuse redundancy, ie, any randomly chosen subset of neurons in the layer that is larger than a threshold size shares a large degree of similarity with the full layer and is able to perform similarly as the whole layer on a variety of downstream tasks. For example, a linear probe trained on $20\%$ of randomly picked neurons from the penultimate layer of a ResNet50 pre-trained on ImageNet1k achieves an accuracy within $5\%$ of a linear probe trained on the full layer of neurons for downstream CIFAR10 classification. We conduct experiments on different neural architectures (including CNNs and Transformers) pre-trained on both ImageNet1k and ImageNet21k and evaluate a variety of downstream tasks taken from the VTAB benchmark. We find that the loss and dataset used during pre-training largely govern the degree of diffuse redundancy and the ‘critical mass’ of neurons needed often depends on the downstream task, suggesting that there is a task-inherent redundancy-performance Pareto frontier. Our findings shed light on the nature of representations learned by pre-trained deep neural networks and suggest that entire layers might not be necessary to perform many downstream tasks. We investigate the potential for exploiting this redundancy to achieve efficient generalization for downstream tasks and also draw caution to certain possible unintended consequences. Our code is available at \url{https://github.com/nvedant07/diffused-redundancy}.

arxiv情報

著者 Vedant Nanda,Till Speicher,John P. Dickerson,Soheil Feizi,Krishna P. Gummadi,Adrian Weller
発行日 2023-10-30 00:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク