MLPs Learn In-Context on Regression and Classification Tasks

要約

インコンテキスト学習 (ICL) は、入力サンプルのみからタスクを解決する優れた能力であり、Transformer モデルのユニークな特徴であると考えられています。
一般的に使用される合成 ICL タスクを調べることで、多層パーセプトロン (MLP) もコンテキスト内で学習できることを実証します。
さらに、MLP および密接に関連する MLP ミキサー モデルは、この設定で同じコンピューティング バジェットが与えられた場合、Transformer と競合するコンテキスト内で学習します。
さらに、コンテキスト内分類と密接に関連する関係推論をテストするために設計された心理学からの一連の古典的なタスクにおいて、MLP がトランスフォーマーよりも優れていることを示します。
これらの結果は、注意ベースのアーキテクチャを超えてコンテキスト内学習を研究する必要性を強調すると同時に、MLP のリレーショナル タスクを解決する能力が限られているというこれまでの強力な議論に異議を唱えるものでもあります。
まとめると、私たちの結果は MLP の予想外の能力を強調し、タスク固有のアーキテクチャに代わるすべての MLP への関心の高まりを裏付けています。

要約(オリジナル)

In-context learning (ICL), the remarkable ability to solve a task from only input exemplars, is often assumed to be a unique hallmark of Transformer models. By examining commonly employed synthetic ICL tasks, we demonstrate that multi-layer perceptrons (MLPs) can also learn in-context. Moreover, MLPs, and the closely related MLP-Mixer models, learn in-context competitively with Transformers given the same compute budget in this setting. We further show that MLPs outperform Transformers on a series of classical tasks from psychology designed to test relational reasoning, which are closely related to in-context classification. These results underscore a need for studying in-context learning beyond attention-based architectures, while also challenging strong prior arguments about MLPs’ limited ability to solve relational tasks. Altogether, our results highlight the unexpected competence of MLPs, and support the growing interest in all-MLP alternatives to task-specific architectures.

arxiv情報

著者 William L. Tong,Cengiz Pehlevan
発行日 2024-09-26 16:05:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE パーマリンク