A Theory of Emergent In-Context Learning as Implicit Structure Induction

要約

大規模言語モデル (LLM) のスケーリングは、例のデモンストレーションからコンテキスト内で学習する緊急の能力につながります。
進歩にもかかわらず、この現象の理論的理解は依然として限られています。
インコンテキスト学習は、自然言語データに見られる合成操作の再結合に依存していると主張します。
言語的に動機付けられた仮定の下で、事前トレーニング分布に十分な量の構成構造がある場合、コンテキスト内学習能力が一般的な次のトークン予測からどのように発生するかを示す情報理論的境界を導き出します。
2 番目の境界は、LLM に答えに向けた中間ステップを出力するよう促すという経験的な成功の理論的正当性を提供します。
理論的予測を検証するために、コンテキスト内学習を誘導するための制御されたセットアップを導入します。
以前のアプローチとは異なり、言語の構成的な性質を説明します。
トレーニングされたトランスフォーマーは、理論上の結果と一致する方法で、さまざまなタスクのコンテキスト内学習を実行できます。
ミニチュア セットアップで現実世界の LLM をミラーリングすると、パラメーターとデータをスケーリングするときにコンテキスト内学習が発生し、中間ステップを出力するように求められると、モデルのパフォーマンスが向上します。
プロービングは、インコンテキスト学習が入力の構成構造の表現によってサポートされていることを示しています。
まとめると、これらの結果は、大規模な言語モデルにおける創発的行動の理論的理解への一歩を提供します。

要約(オリジナル)

Scaling large language models (LLMs) leads to an emergent capacity to learn in-context from example demonstrations. Despite progress, theoretical understanding of this phenomenon remains limited. We argue that in-context learning relies on recombination of compositional operations found in natural language data. We derive an information-theoretic bound showing how in-context learning abilities arise from generic next-token prediction when the pretraining distribution has sufficient amounts of compositional structure, under linguistically motivated assumptions. A second bound provides a theoretical justification for the empirical success of prompting LLMs to output intermediate steps towards an answer. To validate theoretical predictions, we introduce a controlled setup for inducing in-context learning; unlike previous approaches, it accounts for the compositional nature of language. Trained transformers can perform in-context learning for a range of tasks, in a manner consistent with the theoretical results. Mirroring real-world LLMs in a miniature setup, in-context learning emerges when scaling parameters and data, and models perform better when prompted to output intermediate steps. Probing shows that in-context learning is supported by a representation of the input’s compositional structure. Taken together, these results provide a step towards theoretical understanding of emergent behavior in large language models.

arxiv情報

著者 Michael Hahn,Navin Goyal
発行日 2023-03-14 15:24:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク