Meta-Learning Neural Mechanisms rather than Bayesian Priors

要約

子どもたちは、大規模な言語モデルが必要とするよりも数桁少ないデータにさらされているにもかかわらず、言語を獲得します。
メタ学習は、人間のような学習バイアスをニューラルネットワークアーキテクチャに統合する方法として提案されており、シンボリックモデルの構造化された一般化とニューラルネットワークモデルのスケーラビリティの両方を組み合わせています。
しかし、メタ学習はモデルに正確に何を吹き込んでいますか?
正式な言語のメタラーニングを調査し、以前の主張とは反対に、メタトレーニングモデルは、シンプルさを中心に編成されたデータセットでメタトレーニングを受けた場合、シンプルさベースのプライアーを学習していないことを発見しました。
むしろ、メタトレーニングの刷り込みがニューラルメカニズム(カウンターなど)をモデルにインプリントするという証拠を見つけます。これは、下流タスク上のネットワークの認知プリミティブのように機能します。
最も驚くべきことに、単一の正式な言語でのメタトレーニングは、正式な言語が有用な神経メカニズムの学習を奨励している場合、5000の異なる正式な言語でのメタトレーニングと同じくらいモデルに多くの改善を提供できることがわかります。
まとめると、私たちの調査結果は、効率的なメタ学習パラダイムと、象徴的な理論と神経メカニズムをリンクするという新しい理論的洞察に実際的な意味を提供します。

要約(オリジナル)

Children acquire language despite being exposed to several orders of magnitude less data than large language models require. Meta-learning has been proposed as a way to integrate human-like learning biases into neural-network architectures, combining both the structured generalizations of symbolic models with the scalability of neural-network models. But what does meta-learning exactly imbue the model with? We investigate the meta-learning of formal languages and find that, contrary to previous claims, meta-trained models are not learning simplicity-based priors when meta-trained on datasets organised around simplicity. Rather, we find evidence that meta-training imprints neural mechanisms (such as counters) into the model, which function like cognitive primitives for the network on downstream tasks. Most surprisingly, we find that meta-training on a single formal language can provide as much improvement to a model as meta-training on 5000 different formal languages, provided that the formal language incentivizes the learning of useful neural mechanisms. Taken together, our findings provide practical implications for efficient meta-learning paradigms and new theoretical insights into linking symbolic theories and neural mechanisms.

arxiv情報

著者 Michael Goodale,Salvador Mascarenhas,Yair Lakretz
発行日 2025-03-20 11:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク