Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias in Neural Networks

要約

人工ニューラルネットワークは、データから人間の知識の多くの側面を獲得することができ、それらを人間の学習のモデルとして有望にします。
しかし、それらのネットワークが学習できることは、誘導バイアス(発見するソリューションに影響を与えるデータ以外の要因)に依存し、ニューラルネットワークの誘導バイアスはよく理解されていないままであり、これらのシステムのパフォーマンスから人間の学習に関する結論を引き出す能力を制限します。
認知科学者と機械学習の研究者は、しばしば誘導バイアスの原因としてニューラルネットワークのアーキテクチャに焦点を合わせます。
このペーパーでは、特定の問題に適合した初期重みを見つけるためのツールとしてMeta-Learningを使用して、誘導バイアスの別のソース(ネットワークの初期重み)の影響を調査します。
さまざまなバイアスと一般化の形式を必要とする3つのタスクでメタトレーニング430の異なるモデルによって、MLP、CNNS、LSTM、および変圧器の4つの広く使用されているアーキテクチャを評価します。
メタラーニングは、アーキテクチャとデータ表現間のパフォーマンスの違いを大幅に削減または完全に排除できることを発見し、これらの要因は、通常想定されるよりも誘導バイアスの原因としてそれほど重要ではないことを示唆しています。
違いが存在する場合、メタラーニングなしでうまく機能するアーキテクチャとデータ表現は、より効果的にメタトレーニングする傾向があります。
さらに、すべてのアーキテクチャは、メタトレーニングの経験からはほど遠い問題について不十分に一般化し、堅牢な一般化のためのより強力な帰納的バイアスの必要性を強調しています。

要約(オリジナル)

Artificial neural networks can acquire many aspects of human knowledge from data, making them promising as models of human learning. But what those networks can learn depends upon their inductive biases — the factors other than the data that influence the solutions they discover — and the inductive biases of neural networks remain poorly understood, limiting our ability to draw conclusions about human learning from the performance of these systems. Cognitive scientists and machine learning researchers often focus on the architecture of a neural network as a source of inductive bias. In this paper we explore the impact of another source of inductive bias — the initial weights of the network — using meta-learning as a tool for finding initial weights that are adapted for specific problems. We evaluate four widely-used architectures — MLPs, CNNs, LSTMs, and Transformers — by meta-training 430 different models across three tasks requiring different biases and forms of generalization. We find that meta-learning can substantially reduce or entirely eliminate performance differences across architectures and data representations, suggesting that these factors may be less important as sources of inductive bias than is typically assumed. When differences are present, architectures and data representations that perform well without meta-learning tend to meta-train more effectively. Moreover, all architectures generalize poorly on problems that are far from their meta-training experience, underscoring the need for stronger inductive biases for robust generalization.

arxiv情報

著者 Gianluca Bencomo,Max Gupta,Ioana Marinescu,R. Thomas McCoy,Thomas L. Griffiths
発行日 2025-02-27 16:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク