Curriculum effects and compositionality emerge with in-context learning in neural networks

要約

人間の学習には、驚くべき二重性が体現されています。私たちは、論理的で構成的なルールに従い、構造化されたカリキュラム(たとえば、正式な教育)の恩恵を受けることができるように見えることもありますが、一方で、より良い学習を目指して段階的なアプローチや試行錯誤に依存していることもあります。
構造化されていない、またはランダムに組み込まれたカリキュラムから。
影響力のある心理学理論は、2 つの質的に異なる学習システム (1 つは迅速なルールベースの推論、もう 1 つはゆっくりとした段階的な適応) を仮定することで、この一見異質な行動証拠を説明しています。
このような理論とニューラル ネットワークをどのように調和させるかは依然として不明です。ニューラル ネットワークは増分重み更新を介して学習するため、後者のタイプの学習の自然なモデルですが、前者とは明らかに互換性がありません。
しかし、最近の証拠は、メタルラーニング ニューラル ネットワークと大規模言語モデルの両方が「インコンテキスト学習」(ICL)、つまり推論時に与えられたいくつかの例から新しいタスクの構造を柔軟に把握する能力を備えていることを示唆しています。
ここでは、ICL が可能なネットワークが、ルールに支配されたタスクで人間のような学習と構成的行動を再現できると同時に、ルールに似た構造を持たないタスクでは通常の重み内学習 (IWL) を介して人間の行動現象を再現できることを示します。

私たちの研究は、創発的な ICL がニューラル ネットワークに従来の学習特性とは根本的に異なる学習特性をどのように備えさせることができるか、またこれらの学習特性がネイティブ IWL の特性と共存できることを示し、それによって二重プロセス理論と人間の認知の柔軟性に関する新しい視点を提供します。

要約(オリジナル)

Human learning embodies a striking duality: sometimes, we appear capable of following logical, compositional rules and benefit from structured curricula (e.g., in formal education), while other times, we rely on an incremental approach or trial-and-error, learning better from curricula that are unstructured or randomly interleaved. Influential psychological theories explain this seemingly disparate behavioral evidence by positing two qualitatively different learning systems — one for rapid, rule-based inferences and another for slow, incremental adaptation. It remains unclear how to reconcile such theories with neural networks, which learn via incremental weight updates and are thus a natural model for the latter type of learning, but are not obviously compatible with the former. However, recent evidence suggests that both metalearning neural networks and large language models are capable of ‘in-context learning’ (ICL) — the ability to flexibly grasp the structure of a new task from a few examples given at inference time. Here, we show that networks capable of ICL can reproduce human-like learning and compositional behavior on rule-governed tasks, while at the same time replicating human behavioral phenomena in tasks lacking rule-like structure via their usual in-weight learning (IWL). Our work shows how emergent ICL can equip neural networks with fundamentally different learning properties than those traditionally attributed to them, and that these can coexist with the properties of their native IWL, thus offering a novel perspective on dual-process theories and human cognitive flexibility.

arxiv情報

著者 Jacob Russin,Ellie Pavlick,Michael J. Frank
発行日 2024-10-15 17:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, q-bio.NC パーマリンク