Meta-Learning Neural Mechanisms rather than Bayesian Priors

要約

子どもは、大規模な言語モデルが必要とするデータよりも数桁少ないデータにさらされているにもかかわらず、言語を習得する。メタ学習は、人間のような学習バイアスをニューラルネットワークアーキテクチャに統合する方法として提案されており、記号モデルの構造化された一般化とニューラルネットワークモデルのスケーラビリティの両方を兼ね備えている。しかし、メタ学習は具体的にモデルに何を付与するのだろうか?我々は形式言語のメタ学習を調査し、これまでの主張とは異なり、メタ学習されたモデルは、単純性を中心に組織化されたデータセットでメタ学習された場合、単純性に基づく事前分布を学習しないことを発見した。むしろ、メタ学習によって(カウンタなどの)神経メカニズムがモデルに刷り込まれ、それが下流のタスクにおけるネットワークの認知的プリミティブのように機能するという証拠を発見した。最も驚くべきことに、1つの形式言語に対するメタトレーニングは、5000の異なる形式言語に対するメタトレーニングと同程度のモデル改善をもたらすことがわかった。これらを総合すると、我々の発見は、効率的なメタ学習パラダイムのための実用的な示唆を与えるとともに、記号理論と神経メカニズムを結びつけるための新たな理論的洞察を提供する。

要約(オリジナル)

Children acquire language despite being exposed to several orders of magnitude less data than large language models require. Meta-learning has been proposed as a way to integrate human-like learning biases into neural-network architectures, combining both the structured generalizations of symbolic models with the scalability of neural-network models. But what does meta-learning exactly imbue the model with? We investigate the meta-learning of formal languages and find that, contrary to previous claims, meta-trained models are not learning simplicity-based priors when meta-trained on datasets organised around simplicity. Rather, we find evidence that meta-training imprints neural mechanisms (such as counters) into the model, which function like cognitive primitives for the network on downstream tasks. Most surprisingly, we find that meta-training on a single formal language can provide as much improvement to a model as meta-training on 5000 different formal languages, provided that the formal language incentivizes the learning of useful neural mechanisms. Taken together, our findings provide practical implications for efficient meta-learning paradigms and new theoretical insights into linking symbolic theories and neural mechanisms.

arxiv情報

著者 Michael Goodale,Salvador Mascarenhas,Yair Lakretz
発行日 2025-06-03 15:10:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク