Scaling MLPs: A Tale of Inductive Bias

要約

この研究では、深層学習の最も基本的な構成要素である多層パーセプトロン (MLP) を再検討し、視覚タスクにおけるそのパフォーマンスの限界を研究します。
MLP に対する経験的な洞察は、さまざまな理由から重要です。
(1) 変圧器が畳み込みモデルを覆い隠しているために広まった最近の「誘導バイアスが少ない方が良い」という説を考えると、この仮説の限界を探るのは自然なことです。
そのために、MLP は誘導バイアスがまったくない理想的なテストベッドを提供します。
(2) MLP はその数学的単純さにより、深層学習理論の文献においてほぼ独占的に主役であり、より複雑なアーキテクチャで観察される経験的現象を説明する代用として機能します。
驚くべきことに、MLP の実験データポイントは、特に大規模な事前トレーニング プロトコルと組み合わせた場合、文献で見つけるのが非常に困難です。
実践と理論の間のこの矛盾は憂慮すべきものです。MLP は実践モデルによって示された経験的な進歩を反映していますか?
それとも理論家は代理人としてのMLPの役割を再考する必要があるのだろうか?
これらの両方の側面についての洞察を提供します。
我々は、MLP のパフォーマンスが規模に応じて大幅に向上することを示し (CIFAR10 で 93%、CIFAR100 で 79%、TinyImageNet で 69%)、誘導バイアスの欠如が実際に補償できることを強調しています。
私たちは、MLP が現代の対応するものの動作を忠実に模倣していることを観察していますが、学習設定の一部のコンポーネントは、驚くべきことに、より強力なまたは予期しない動作を示しています。
固有の計算効率により、学術研究者にとって大規模な事前トレーニング実験がより利用しやすくなります。
私たちの実験はすべて単一の GPU 上で実行されました。

要約(オリジナル)

In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative ‘less inductive bias is better’, popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, being completely free of any inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (93% on CIFAR10, 79% on CIFAR100, 69% on TinyImageNet), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however surprisingly exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU.

arxiv情報

著者 Gregor Bachmann,Sotiris Anagnostidis,Thomas Hofmann
発行日 2023-06-23 15:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク