Scaling MLPs: A Tale of Inductive Bias

要約

本研究では、ディープラーニングにおける最も基本的なビルディングブロックである多層パーセプトロン(MLP)を再考し、視覚タスクにおける性能の限界について研究する。MLPに関する経験的洞察は、複数の理由から重要である。(1)トランスフォーマーが畳み込みモデルを駆逐したために広まった「誘導バイアスは少ない方が良い」という最近の物語を考えると、この仮説の限界を探るのは自然なことである。そのために、MLPは視覚特有の帰納的バイアスを持たないため、理想的なテストベッドを提供する。(2)MLPは、その数学的な単純さゆえに、ディープラーニング理論の文献ではほぼ独占的に主役となっており、より複雑なアーキテクチャで観察される経験的現象を説明する代理として機能している。驚くべきことに、MLPの実験的データポイントは、特に大規模な事前学習プロトコルと組み合わせた場合、文献で見つけることは非常に困難である。このような実践と理論の不一致は憂慮すべきものです:MLPは実用的なモデルが示す経験的進歩を反映しているのでしょうか?それとも、理論家は代理としてのMLPの役割を再考する必要があるのでしょうか?我々はこの2つの側面について考察を行う。CIFAR10では95%、CIFAR100では82%、ImageNet ReaLでは58%と、MLPの性能がスケールに応じて劇的に向上することを示し、帰納的バイアスの欠如が実際に補われることを強調する。MLPは最新のMLPの挙動を忠実に模倣しており、学習設定におけるいくつかのコンポーネントは、より強い挙動や予期せぬ挙動を示すことが確認されています。MLP固有の計算効率により、大規模な事前学習実験は学術研究者にとってより身近なものとなっている。我々の実験はすべて1つのGPUで実行された。

要約(オリジナル)

In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative ‘less inductive bias is better’, popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, as they lack any vision-specific inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (95% on CIFAR10, 82% on CIFAR100, 58% on ImageNet ReaL), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU.

arxiv情報

著者 Gregor Bachmann,Sotiris Anagnostidis,Thomas Hofmann
発行日 2023-10-03 09:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク